Senin, 18 April 2011

Analisis Web

Belajar sifat-sifat dari Web sebagai objek formal di dalam dirinya sendiri
menyediakan cukup banyak leverage untuk desainer dari sistem baru, dan bahkan
lebih mungkin untuk badan standar yang tugasnya adalah untuk menemukan dan
menjaga invariants penting dari pengalaman Web pada makro skala. Pada bagian ini kita akan meninjau secara singkat upaya untuk peta Web topologi, dan metode kemudian matematika penyelidikan.



Topologi web Web yang struktur investigasi Topological upaya untuk memahami struktur dari dasar
unsur-unsur arsitektur dan hubungan antara mereka. Struktur dapat memberi tahu kita banyak. Penyelidikan struktur dari Web adalah selalu tergantung pada tingkat abstraksi dari deskripsi saja. Tersebut adalah ukuran dari Web yang bahkan sangat kecil perbedaan di kinerja komponen ini dapat membuat perbedaan besar di tingkat makro. Sebagai contoh, meskipun satu tidak akan umumnya khawatir oleh perbedaan antara algoritma O (n) dan algoritma O (n log n) di ruang masalah kebanyakan, pada skala Web log n istilah bisa mulai untuk mendapatkan lumayan besar [191]. Oleh karena itu perilaku komponen jaringan skala besar adalah relevansi bahkan ketika mencari pada sifat global dari Web. Selanjutnya, struktur pada gilirannya memberikan bukti apa-konversi dari sations sedang berlangsung melalui Web. Oleh karena itu pemahaman struktur adalah penting untuk sejumlah aplikasi, seperti navigasi, pencarian, menyediakan sumber daya untuk mendukung komunitas online, atau ameliorating efek dari perubahan mendadak dalam permintaan informasi.

Web adalah demokratis sejauh bahwa tidak ada sentralisasi
atau pusat koordinasi menghubungkan. Dipahami sebagai struktur hypertext, kegunaan bergantung sangat besar pada efektif menghubungkan; berikut rantai halaman buruk terkait mengarah pada disorientasi terkenal
fenomena menjadi 'tersesat di angkasa'. Setelah rantai link adalah juga diberikan kurang berisiko oleh Web browser yang berisi 'kembali' tombol, yang berlaku memberikan kebalikan dari hyperlink apapun. Dan navigasi tidak perlu hanya menjadi santai berjalan seenaknya sekitar rantai hyperlink, terima kasih
untuk mencari mesin yang menemukan halaman dengan karakteristik yang menarik bagi pengguna. topologi Web berisi kompleksitas lebih dari rantai linear sederhana. Pada bagian ini, kita akan membahas upaya untuk mengukur global struktur-
mendatang dari Web, dan bagaimana halaman web individu masuk ke dalam konteks itu. Apakah ada pernyataan menarik yang menetapkan atau menyarankan penting prop-
erti? Sebagai contoh, mungkin itu mungkin untuk pengetahuan peta di Web? Seperti peta mungkin memungkinkan kemungkinan pemahaman com online- komunitas perikanan, atau untuk melakukan 'tracing membanggakan' dalam - setelah meme, atau ide,
atau rumor, atau Factoid, atau teori, dari perkecambahan membuahkan hasil, atau sebaliknya sebaliknya, dengan menelusuri cara itu muncul dalam berbagai halaman dan link mereka [5]. Mengingat peta tersebut, kita dapat membayangkan bercak masalah seperti Slashdot
surge (yang memperlambat atau penutupan sebuah website setelah baru dan besar Populasi pengguna mengikuti link untuk itu dari sebuah website populer, sebagaimana telah terjadi dari situs dari majalah online Slashdot) sebelum mereka terjadi - atau setidaknya mampu mengintervensi cukup cepat untuk memulihkan
normal atau jasa dapat diterima segera setelah itu. Memang, kita bahkan mungkin
menemukan berkat apakah dampak lonjakan Slashdot telah menolak ekspansi konstan dari Web, seperti yang telah dikatakan baru-baru ini [166].
Banyak menulis tentang Web tampaknya menunjukkan bahwa, di beberapa
cara, hidup, berkembang dan di luar kendali [misalnya 87], dan desentralisasi 54 Analisis Web model Web pasti mempromosikan pandangan bahwa pertumbuhannya berada di luar
kontrol. Web-sebagai model-platform berarti bahwa ada asli dan kuat indra di mana "pencipta" dari Web (yang dapat con- Perangkat ini mendapat sebagai: conceptualisers awal hubungan meluas antara pengetahuan-
tepi dan pengetahuan representasi, pencetus yang kuat standar dan bahasa yang mendasari Web seperti yang kita tahu, yang banyak
profesional saat ini dan tanpa pamrih melaksanakan nego telaten- tiations pada badan standar W3C, atau para penulis yang sebenarnya con- tenda yang kita lihat online) tidak mengontrol struktur makroskopik. Ini
model sangat kuat, tetapi itu tidak berarti bahwa Web telah nec- essarily menjadi sup dibeda-bedakan halaman yang terhubung. Metode analisis web melihat pola link [171] telah ternyata sangat menarik, mencerahkan dan kuat dalam struktur mereka menemukan. Sebagai contoh, beberapa situs sepertinya harus diambil sebagai berwibawa dalam beberapa cara - dengan kata lain, banyak situs lain link ke dalamnya. Situs lain mengandung banyak link keluar - salah satu cara untuk hamil ini akan menjadi yang berwenang seperti indeks situs mengenai topik tertentu - dan
situs ini berguna bertindak sebagai hub. hub tersebut juga dapat otoritas, tetapi sama mereka mungkin ditunjukkan oleh beberapa halaman atau bahkan tidak ada halaman sama sekali. Ketika metode seperti yang dipelopori oleh Kleinberg, Brin dan Page mengambil link matriks Web dan menemukan vektor eigen, ternyata bahwa mereka sesuai dengan cluster sekitar konsep bahwa halaman tentang. Seperti otoritas-hub struktur sangat penting besar untuk kami analisis pemahaman dari Web, dan membutuhkan dari link matriks temukan. Memang, niat asli Kleinberg adalah untuk menemukan otoritas, dan online mana-mana dari struktur otoritas-hub lebih kompleks awalnya mengejutkan [171]. Beberapa pihak berwenang pada topik yang sama kasar mungkin menunjuk oleh semua atau sebagian besar hub yang mengkhususkan diri di daerah tersebut. Oleh karena itu bahkan jika berbagai pihak berwenang tidak menunjuk satu sama lain (mungkin karena dari persaingan komersial), mereka semua masih terkait dalam sub yang cukup ketat
jaringan dengan hub. Struktur tersebut dapat dilihat sebagai mendefinisikan de facto subjek atau topik, seperti yang diciptakan oleh komunitas penulis halaman aktual. Topik-topik tersebut dan masyarakat alternatif cara ukiran up isi Web di sepanjang garis wacana klasifikasi standar [137].
Grafik-teori investigasi Mungkin paradigma yang paling terkenal untuk mempelajari Web adalah grafik teori. Web dapat dilihat sebagai grafik yang node halaman dan yang (diarahkan) tepi adalah link. Karena weblinks sangat sedikit acak, jelas bahwa tepi grafik mengkodekan struktur banyak yang terlihat oleh desainer dan penulis konten yang sama pentingnya. Sangat tersambung
bagian webgraph yang sesuai dengan apa yang disebut cybercommunities dan penyelidikan awal, misalnya dengan Kumar et al, menyebabkan discov the- ery dan pemetaan ratusan dan ribuan masyarakat seperti [175]. Namun, identifikasi cybercommunities oleh pemetaan pengetahuan masih sesuatu yang seni, dan bisa kontroversial - pendekatan yang sering menghasilkan "masyarakat" dengan anggota tak terduga atau hilang, dan dif-
pendekatan ferent sering mengukir ruang yang berbeda [137]. Konektivitas webgraph telah dianalisis secara rinci, menggunakan struktural seperti indikator seperti bagaimana node yang terhubung. Berbagai makro
struktur scopic telah dilihat dan diukur, misalnya satu merangkak dari lebih dari 200 juta halaman menemukan bahwa 90% dari Web sebenarnya tersambung, jika link diambil sebagai non-directional, dan bahwa
56m dari halaman ini sangat sangat berhubungan [49] cf. [80]. The struktur- mendatang sehingga ditemukan sering disebut sebagai bentuk bowtie, seperti yang ditunjukkan pada Gambar 4.1. The 'simpul' dasi adalah sangat berhubungan cluster (SCC) dari webgraph di mana terdapat jalur antara setiap pasangan node. SCC ini diapit oleh dua set cluster, mereka yang link ke SCC tetapi dari yang tidak ada backlink (ditandai sebagai DI dalam gambar), dan mereka yang terkait dengan dari SCC tetapi tidak link kembali (OUT). Hubungan antara SCC, IN dan OUT memberikan bentuk bowtie. Implikasi dari penemuan ini masih topologi perlu dipahami. Meskipun beberapa telah mengusulkan perubahan terhadap algoritma PageRank untuk mengambil keuntungan dari Topol mendasari-
ogy [18], masih ada banyak pekerjaan yang harus dilakukan untuk mengeksploitasi struktur terlihat. Memang, struktur bowtie adalah lazim di berbagai skala. Dill di al telah menemukan bahwa himpunan bagian yang lebih kecil dari Web juga memiliki bentuk bowtie, sebuah petunjuk bahwa Web mempunyai sifat fraktal yang menarik - yaitu bahwa setiap menampilkan daerah tematis-terpadu (banyak) yang sama
karakteristik sebagai Web pada umumnya [78]. Web cukup jarang tersambung berarti bahwa subgraph disebabkan oleh satu set acak node akan hampir kosong, tetapi jika kita mencari kelompok non-acak (Cluster tematis-bersatu atau TUCs) yang jauh lebih con- dihubungkan, maka kita melihat bentuk bowtie muncul lagi. Setiap TUC akan memiliki SCC sendiri, dan sendiri IN dan OUT sisi, termuat di dalam SCC yang lebih luas. SCC skala yang lebih besar, karena sangat berhubungan, kemudian dapat bertindak sebagai tulang punggung navigasi antara TUCs. Dengan cara ini sifat fraktal dari Web memberi kita indikasi dari seberapa baik ia membawa kompromi antara stabilitas dan penyelam- sity, sejumlah cukup konstan koneksi pada berbagai tingkat skala alat komunikasi yang lebih efektif [29]. Terlalu banyak koneksi menghasilkan overhead yang tinggi untuk komunikasi, sementara terlalu sedikit berarti bahwa komunikasi penting mungkin gagal terjadi. Asumsi bahwa lev- els konektivitas yang cukup konstan pada setiap tingkat skala adalah penting untuk perencanaan jangka panjang dan jangka pendek Capac bandwidth- ity, misalnya. Web berkembang sebagai akibat dari sejumlah dasarnya proses stokastik independen yang berevolusi pada berbagai skala, yang mengapa sifat struktural tetap konstan seperti yang kita perubahan skala. Jika kita
mengasumsikan bahwa Web memiliki semacam ini properti fraktal, maka untuk desain- ing algoritma efisien untuk layanan data di Web pada berbagai skala itu sudah cukup untuk memahami struktur yang muncul dari satu sederhana proses stokastik [78]. Ada beberapa metrik yang tersedia untuk teori grafik ([40] dan lihat [76] untuk survei terbaru). langkah-langkah Sentralisasi memberitahu kita bagaimana tersambung sebuah node dibandingkan dengan node lain grafik, dan karena itu dapat membantu
memberitahu kita mana yang paling "pusat" node. Jumlah jarak ke node lain (jarak keluar) dan jumlah jarak dari yang lain node (dalam jarak), dinormalkan untuk ukuran grafik itu sendiri, dapat menjadi informatif. Sebuah node sentral akan menjadi salah satu yang memiliki relatif rendah total masuk dan keluar jarak, dalam kontras node terkubur jauh dari node pusat kurang mungkin dicapai oleh suatu rantai link. Pengetahuan yang merupakan node pusat, khususnya node yang relatif luar pusat (misal ada banyak link dari yang node ke node lain), adalah suatu langkah penting pertama untuk menavigasi melalui hyperspace. Pusat tersebut node berguna untuk mencapai poin sewenang-wenang dalam grafik [76]. Global metrik melihat penggalian informasi tentang grafik sebagai keseluruhan. Kekompakan adalah ukuran tentang bagaimana terhubung grafik, sebuah grafik kompak berarti bahwa, secara umum, adalah mudah untuk mencapai secara acak
dipilih node dari yang lain. Ukuran biasa memiliki jangkauan antara 0 (benar-benar terputus node) dan 1 (sambungan universal). Kompak pemberdayaan 0 jelas harapan untuk ruang informasi, tapi mungkin kurang jelas grafik tidak boleh terlalu kompak baik, jika penulis halaman Web yang hemat dan bijaksana tentang apa yang mereka link ke, mereka
link yang lebih mungkin untuk digunakan. Ada juga metode untuk menemukan- ing apakah grafik seimbang atau tidak seimbang, yaitu beberapa bagian grafik kurang baik terhubung dibandingkan dengan orang lain, dan karena itu per- kejadian hilang informasi. Saldo adalah properti dari sebuah node individu pada grafik, dan dimaksudkan untuk mengekspresikan intuisi bahwa, dalam sebuah rea-
sonably sumber daya ekspresif Web, link dapat diartikan sebagai lebih lanjut perkembangan ide-ide dalam sumber daya, dan oleh karena itu jika beberapa dari
link yang sangat luas dan lain-lain agak jarang tersambung, maka mungkin saja kasus yang menunjukkan mantan sangat baik dikembangkan topik sementara yang kedua dapat ditingkatkan dengan penambahan lebih lanjut
link [40].
metrik global lainnya dapat mengukur linieritas grafik, maka dis- tribution link, atau diameter (yaitu jarak maksimum antara node). Diameter webgraph telah diperkirakan 500, dan diameter inti yang sangat dihubungkan pusat di 28 [49]. Pada tahun 1999
diperkirakan bahwa jarak rata-rata antara dua secara acak-cho sen dokumen sekitar 19 [13], meningkat menjadi 21 satu atau dua tahun kemudian [21]. Struktur Web adalah hipotesis menjadi grafik dunia kecil, di mana jalur terpendek antara node lebih kecil dari satu mungkin mengharapkan grafik yang ukuran [284]. Dimana area topik tertentu dipahami, analisis dapat didasarkan pada kata kunci, merangkak Web dengan berbagai mesin pencari untuk menghasilkan
sekitar grafik yang menunjukkan hubungan antara situs-situs yang mengandung kata kunci. grafik tersebut telah digunakan untuk keahlian peta ilmiah di beberapa topik daerah, misalnya [252] diselidiki grafik sekitar tentang iklim perubahan untuk menentukan sifat struktural mereka seperti konektivitas dan sentralitas. Bersamaan dengan wawancara pakar, analisis itu digunakan untuk mengungkap pola penggunaan, dan melemparkan cahaya pada pertanyaan apakah struktur Web menciptakan ilmu pengetahuan, demokratis terdesentralisasi mana pemasok berbagai informasi yang digunakan, atau alternatif pemenang-mengambil-semua Web di mana ada pusat informasi yang penting
mendapatkan pasokan diperkuat. hasil sementara mereka memberikan dukungan beberapa untuk kedua pola, serta mengarah ke kebutuhan data yang mencakup periode yang lebih lama dan triangulasi kelompok ahli wawancara, analisis webmetric dan lebih studi kasus mendalam. Struktur dan evolusi jaringan besar sering mod- elled sebagai apa yang disebut "grafik acak", yang N node masing-masing memiliki probabil- ity p menjadi terhubung ke node lain. Probabilitas bahwa sebuah node memiliki hubungan k itu mengikuti distribusi Poisson [89]. Namun, dalam kasus Web, tentunya tidak mungkin bahwa hubungan antara node benar-benar acak. Jadi, misalnya, segala sesuatunya sama sebuah node akan ditautkan
ke banyak node lain jika yang terintegrasi dengan baik ke dalam wacana sebuah domain,
dan tantangan untuk teori graph adalah untuk mengungkap aspek non-acak topologi Web, dan mewakili itu. [21] menunjukkan mekanika statistik sebagai sumber potensial inspirasi, karena dapat digunakan untuk menduga sifat dari Web secara keseluruhan dari sampel yang terbatas (bahkan indeks Google miliaran halaman Web adalah proporsi terbatas).
Sejumlah putaran studi paralel tentang pergantian abad menunjukkan bahwa probabilitas dari sebuah halaman memiliki link k tidak, seperti berlari-
dom teori graph memprediksi, mengikuti distribusi binomial dan con- ambang untuk Poisson untuk jaringan besar, melainkan meluruh melalui kuasa hukum.
Menurut Barab si, kemungkinan laman web yang dipilih secara acak sebuah -G dimana G = 2,45 untuk link keluar dan G = 2,1 memiliki link k adalah k untuk link masuk. Perbedaan topologi yang berikut ini adalah secara signifikan
cant, misalnya, dengan jaringan dengan distribusi Poisson, maka akan akan secara eksponensial jarang ditemukan node dengan link substansial lebih dari mean, sedangkan distribusi kuasa hukum menentukan sebuah topologi mana banyak node beberapa link, dan sejumlah kecil tapi signifikan sudah sangat banyak. Dalam jenis grafik yang biasa acak, jumlah rata-rata link per node sangat penting untuk menentukan struktur, karena Distribusi Poisson jumlah link. Namun untuk tipe yang diuraikan oleh Barab dkk si, rata-rata yang penting sedikit jaringan; sebuah karena alasan itu mereka merujuk kepada mereka sebagai jaringan skala bebas [22]. Barab si sebuah et al awalnya diharapkan dapat menemukan penyebaran acak dari koneksi, pada tanah yang orang mengikuti minat mereka yang unik dan beragam bila mereka link ke dokumen, dan diberi sejumlah besar dokumen Grafik hasil koneksi akan muncul cukup acak. Bahkan, konektivitas Web tidak seperti itu. Apa yang kita lihat adalah bahwa node paling con-
hubungkan ke beberapa node lain, tetapi beberapa node (hub) memiliki besar jumlah koneksi, kadang-kadang dalam jutaan. Tampaknya tidak ada batasan untuk jumlah koneksi yang hub memiliki, dan tidak ada node typi-
kal yang lain, sehingga dalam pengertian ini adalah skala jaringan bebas. Skala bebas jaringan memiliki beberapa properti diprediksi, meskipun - mereka menolak kecelakaan
gigi kegagalan, tetapi rentan terhadap serangan terkoordinasi di hub. Menariknya jaringan fisik itu sendiri juga merupakan jaringan skala bebas
yang mengikuti suatu distribusi kuasa hukum dengan eksponen G = 2,5 untuk jaringan router dan G = 2,2 untuk peta domain [92]. Selain itu, juga telah melaporkan bahwa probabilitas untuk menemukan situs web yang dibuat
dari laman web n lagi didistribusikan menurut kuasa hukum [150]. Sifat skala bebas dari Web belum benar dimanfaatkan untuk meningkatkan algoritma signifikansi seperti PageRank. Hal ini mungkin daerah yang berpotensi sangat bermanfaat untuk penelitian mendatang [178]. 60 Analisis Web Konektivitas dari Web juga terdistorsi oleh clustering, sedangkan probabilitas dari dua tetangga dari node yang diberikan juga dihubungkan jauh lebih tinggi daripada acak (lih. misalnya [4]). clustering ini menyumbang dengan nilai dari Web sebagai ruang informasi, bahkan berlari- dom eksplorasi dari cluster dihubungkan erat-kemungkinan (a) untuk menjaga pengguna dalam cluster halaman Web yang relevan, dan (b) memberikan beberapa baru pengetahuan atau miring menarik pada topik di tangan. Berbagai jenis cluster, atau pola-pola interaksi, dapat menghasilkan menarik yang berbeda subgraphs dengan distribusi potensial yang berbeda. Misalnya, beberapa
bagian dari Web ditujukan untuk bekerja kolaboratif, seperti akademik dis- ciplines (cf. [252]). Lain terutama dalam mempublikasikan modus, seperti dengan besar media. Yang lain dimaksudkan untuk interaksi pribadi yang bisa sangat dinamis dan kompleks, seperti topik blogging (Cf. [3, 5]). pinggiran tertentu dari Web akan memiliki secara dramatis berbeda dinamis pola konektivitas dari satu sama lain, dan dari Web secara keseluruhan. Pemetaan invariants tidak hanya membawa kita lebih dekat dengan deskripsi yang jelas- tion fenomena Web, tetapi juga memungkinkan standar untuk un berikutnya asi (s) dari Web untuk dikembangkan yang melestarikan aspek-aspek penting struktur Web saat memungkinkan untuk pertumbuhan dan peningkatan usabil-
ity, expressivity dan desiderata lainnya. Sebagai contoh, pemahaman jaringan sifat dari Web akan membantu menyediakan model untuk secu nya- ritas persyaratan dan kerentanan, kecenderungan untuk kemacetan, maka
tingkat demokratisasi itu akan mendukung, atau apa yang akan terjadi jika 'Dua-kecepatan' Web muncul menjadi ada sebagai hasil dari perlakuan istimewa yang ditawarkan kepada pengguna Web tertentu dan berakhirnya netralitas bersih.
Lihat Bagian 4.2.4 untuk diskusi lebih lanjut dari aplikasi praktis pemetaan Web. teori graph tradisional cenderung bekerja dengan model ukuran tetap. Namun, pertumbuhan web tidak hanya menuntut grafik yang dinamis teori, juga membutuhkan model yang menghormati kualitas pertumbuhan itu. Jadi, misalnya, link baru tidak secara acak, lagi dari link lama adalah; kemungkinan adalah bahwa link baru akan con- dihubungkan ke halaman yang tersambung sendiri sangat sudah (dengan demikian menampilkan konektivitas preferensial). Mengingat bahwa kendala, Barab si et
sebuah al memiliki model jaringan Web-seperti dalam grafik di mana suatu node baru mendapatkan 4.2. Web matematika
ditambahkan pada setiap langkah waktu, yang link ke node lain didistribusikan non-
secara acak, dengan probabilitas yang lebih besar koneksi ke sangat-tersambung node. Seperti grafik juga skala bebas, dan probabilitas bahwa simpul memiliki hubungan k adalah kuasa hukum sekali lagi, dengan eksponen G = 3. Dalam model, node yang terhubung sangat jelas meningkatkan konektivitas cepat dari node lain [21]. model skala-bebas seperti itu adalah contoh sederhana dari jaringan berkembang - mereka terlalu sederhana? Secara khusus, asumsi kuasa hukum [92] mungkin
terlalu rapi, dan pembagian derajat node, meskipun sangat variabel- mampu, mungkin tidak cocok dengan kuasa hukum [59]. Alternatif model mulai emerge [94]. Satu baris penting dalam Web Ilmu harus menjadi daya eksploratif-
ransum topologi grafik dinamis, untuk menyelidiki bagaimana aneh pola pertumbuhan Web bisa terjadi, dan bagaimana mereka mungkin mod- elled. Selanjutnya, efek skala masih belum dipahami. Apakah ada beberapa jenis batas atas skalabilitas dari Web? Jika demikian, adalah bahwa batas satu berprinsip, atau tidak tergantung pada ketersediaan layak teknologi? Berapa besar bisa di Web tumbuh sambil tetap sebuah dunia kecil
dalam arti yang dijelaskan di atas. Memang, pertanyaan skala dipotong dua arah. Ada yang lain, lebih kecil Webs sekitar, dan sedangkan web itu sendiri datang sebagai sesuatu dari kejutan bagi matematikawan dan ilmuwan komputer pada saat itu dimulai,
sekarang studi Web cenderung melihat terutama di Web. Struktur tersebut sebagai Intranets mempunyai sifat yang sangat berbeda, dalam hal ukuran, connectiv- ity, koherensi dan pencarian sifat; beberapa sifat terbawa dari Internet secara keseluruhan, sementara yang lainnya tidak. Telah ada sedikit pekerjaan atas struktur kontras, meskipun melihat [91] untuk investigasi Intranet, dan [252] untuk subgraphs sesuai dengan sci tertentu- entific topik. 4.2 Web matematika L Pez-Ortiz, dalam survei yang berguna [191], terlihat di sejumlah paradigma
o berguna untuk memahami dasar-dasar algoritmik Internet pada umumnya dan Web pada khususnya. Menerapkan wawasan tentang algoritma-
rithms masalah jaringan, dalam konteks protokol tertentu mendasari Web, berpotensi sangat bermanfaat. Dan konteks yang 62 Analisis Web vital - fungsi (atau sebaliknya) dari algoritma dalam konteks Web menyediakan beberapa bukti yang paling meyakinkan bagi mereka yang ingin berpendapat bahwa itu adalah lingkungan yang penting unik. Pertumbuhan dari Web, sebagai Pez L-Ortiz menunjukkan, adalah seperti yang paling canggih
o teks algoritma pengindeksan yang beroperasi baik di dalam zona kenyamanan mereka dalam aplikasi standar pada awal 1995, namun berjuang keras pada akhir tahun itu.
Model Rasional Salah satu paradigma penting adalah bahwa dari ekonomi mikro, mathemat diskrit ics, teori pilihan rasional dan teori permainan. Meskipun pengguna individu
mungkin atau mungkin tidak "rasional", itu telah lama mencatat bahwa secara masal orang berperilaku sebagai maximisers utilitas. Dalam hal ini, pemahaman insentif yang tersedia bagi pengguna Web harus menyediakan metode untuk
model menghasilkan perilaku, dan karenanya pandangan tentang apa global set perilaku yang diinginkan bisa direkayasa, dan apa yang bisa sistem mendukung perilaku tersebut. Web tidak memiliki mekanisme koordinasi pusat, namun menghasilkan sistem- tematically menarik perilaku berkat insentif dan kendala dikenakan baik oleh arsitektur, protokol dan standar, dan mereka interaksi dengan sifat sosial atau psikologis dari pengguna atau desainer (Memang, hal ini bisa dibilang fakta bahwa Web dibangun, dikelola dan digunakan oleh banyak pengguna dunia nyata dengan hampir tak terbayangkan beragam antar EST dan preferensi yang yang terpenting untuk aplikasi paradigma / ekonomi teori permainan). Apakah ada batas atas untuk utilitas kebebasan yang desentralisasi telah menghasilkan? Sebagai meningkatnya jumlah pengguna, akan kemungkinan bahwa pilihan yang satu membuat menimpa pada berbagai pilihan yang tersedia untuk meningkatkan orang lain, atau
bahwa ekstrapolasi tidak sah dari dunia nyata dengan tata ruang tetap parameter? Jawaban untuk pertanyaan itu, bagaimanapun matematika, akan
memiliki efek mendalam pada pemerintahan Web [186]. Dengan kata lain, apa adalah frekuensi dengan yang ditemukan kesetimbangan Nash yang optimal bagi semua pihak? Dalam Web desentralisasi dan berkembang, di mana
tidak ada "pemilik" seperti itu, kita bisa yakin bahwa keputusan yang membuat akal bagi seorang individu tidak merusak kepentingan pengguna secara keseluruhan?
Situasi seperti ini, yang dikenal sebagai 'tragedi milik bersama ", terjadi di banyak sosial sistem yang menjauhkan diri hak milik dan lembaga terpusat-
tutions begitu jumlah pengguna menjadi terlalu besar untuk mengkoordinasikan menggunakan peer tekanan dan prinsip-prinsip moral. Kunci keberhasilan dari Web terletak pada efek jaringan menghubungkan ke sumber daya, jika yang baik memiliki efek jaringan, kemudian nilai itu meningkat baik untuk pemilik individu pemilik semakin banyak adalah, dan semua hal yang sama dengan lebih kaya set link besarnya penggunaan Penyambungan. Jaringan efek dapat berupa langsung atau tidak langsung. A langsung efek adalah di mana permintaan untuk barang dihubungkan dengan jumlah orang yang memilikinya - telepon dan email menjadi contoh utama. Secara intuitif,
kita dapat melihat bahwa model pasar untuk barang-barang tersebut bermasalah, sebagai permintaan tampaknya tergantung pada sejumlah Deci tampaknya tidak terkait-
aksesi (untuk mengadopsi atau tidak dalam tahap awal), jika 'cukup' orang pergi untuk lebih dini di pasar akan melambung, jika tidak. Tapi bagaimana kita mendefinisikan
'Cukup' di sini? Memasukkan lebih teknis, apa artinya ini adalah bahwa pasar dengan efek jaringan memiliki beberapa kesetimbangan. Karena jumlah pengadopsi (Ukuran jaringan) meningkat, kesediaan marjinal konsumen membayar meningkat karena keuntungan yang lebih besar akan mereka terima dari layanan untuk harga yang diberikan - keuntungan, ditentukan oleh tindakan pihak ketiga daripada kedua pihak transaksi yang sebenarnya, adalah disebut eksternalitas positif. Tapi di luar batas tertentu, akan- ingness untuk membayar jatuh, sebagai pengadopsi kemudian biasanya mendapatkan kurang dari jaringan. Jadi, misalnya, mempertimbangkan layanan VOIP berlangganan dengan gratis panggilan ke sesama pelanggan. Sejumlah kecil pelanggan umumnya mengurangi nilai pelayanan kepada pengguna potensial, tetapi jika kita asumsikan
harga tetap stabil, jika meningkatnya jumlah pengguna, jumlah orang siap untuk membayar harga akan meningkat, dan akan ada saleh lingkaran pertumbuhan. Namun, mereka bergabung nantinya akan mereka
yang lebih skeptis tentang nilai layanan - sangat mungkin bahwa mereka tidak terlalu memiliki banyak kebutuhan untuk VOIP. Jadi di beberapa titik maksimum akan tercapai, bahkan ketika jaringan sangat besar, dengan banyak
kemungkinan komunikasi, tidak akan menarik pengguna baru apapun tanpa menurunkan harga. layanan online Banyak struktur jaringan, misalnya untuk jaringan mobile atau poker interaktif atau situs perjudian.
64 Analisis Web Jika, seperti dalam Gambar 4.2, kurva penawaran adalah elastis sempurna (misalnya hor- izontal), ada tiga kesetimbangan: dua titik di mana suplai persilangan kurva kurva permintaan (pada jaringan ukuran B dan C), dan titik di mana kurva penawaran hits sumbu y (A = 0). Jika jaringan ukuran tetap pada 0, maka permintaan tetap nihil, dan kami tinggal di posisi A. Pada C, posisi ini juga stabil; jaringan berisi semua cus- tomers siap untuk membayar tarif pasar, dan tidak bisa tumbuh karena ada
tidak ada orang lain siap untuk membayar. Jika jaringan tumbuh, itu harus karena harga telah jatuh (yaitu kurva penawaran telah bergerak ke bawah; jika menyusut jaringan, yang harus karena seseorang telah mengubah preferensi dan sekarang tidak lagi siap untuk membayar harga pasar (yaitu kurva permintaan telah bergerak ke bawah). Jika kita berasumsi bahwa dua
kurva tetap diam, maka setiap perubahan akan mengakibatkan slip kembali ke
C. Kuncinya adalah B, yang meskipun suatu kesetimbangan tidak stabil. Jika ukuran jaringan tergelincir di bawah B, maka tidak cukup banyak orang akan siap
untuk membayar tingkat pasar dan permintaan secara bertahap akan tergelincir kembali ke nol. Jika di sisi lain bisa mendapatkan dari B, maka tiba-tiba banyak lebih banyak konsumen akan muncul yang siap untuk membayar harga pasar atau lebih, dan ukuran jaringan akan meningkat secara dramatis, mendapatkan lebih dari punuk kurva permintaan dan mencapai C. Jadi B adalah massa kritis untuk jaringan [281]. Menafsirkan grafik ini dalam Web, 'ukuran jaringan' bisa diberi glos sebagai 'jumlah node dalam webgraph yang' atau 'jumlah link' alternatif. 'Kesediaan untuk membayar' mengacu pada biaya yang pengguna Web adalah siap menyerap. Ini termasuk biaya keuangan rutin seperti menyewa dari luas garis band, biaya keuangan dimuka seperti pembelian komputer, muka biaya non-keuangan, seperti upaya yang terlibat dalam mendaki kurva belajar yang terkait dengan formalisms tertentu atau aplikasi, dan teratur biaya non-keuangan seperti terus-menerus memastikan bahwa seseorang sistem aman. 'User' itu yang dimaksud juga akan bervariasi: grafik bisa merujuk ke pengguna web biasa (konsumen konten, yang biaya biasanya akan keuangan), tetapi mungkin juga merujuk kepada penulis web (CRE- ators isi, biaya yang biasanya akan dalam hal waktu dan usaha). Tapi either way, kelanjutan dari efek jaringan yang positif diamati di Web tergantung pada mempertahankan kinerja luar itu, keseimbangan kedua tidak stabil.
jaringan efek tidak langsung juga berlaku ke Web. Jaringan tidak langsung efek ditemukan dalam industri seperti DVD - saya beli DVD pemain tidak dipengaruhi oleh siapa lagi yang memiliki satu, tetapi semakin besar jumlah pemilik DVD player, segala sesuatunya sama yang lebih besar dan lebih kaya yang jumlah konten DVD yang tersedia akan (dan memang lebih murah itu akan). Pemodelan efek tidak langsung seperti juga merupakan bagian penting dari
memahami bagaimana Web dapat terus berkembang. Bagaimana itu akan mudah untuk menggambarkan Web dalam permainan teori / rasional pilihan kata? Apakah ada perbedaan intrinsik antara, katakanlah, 'biasa' pengguna dan penyedia layanan? Dan lagi, bagaimana kita memahami, pada paradigma ini, pertumbuhan Web dan invariants dari Web pengalaman? Ini adalah kunci untuk pemodelan evolusi pandangan pemain diberikan umpan balik yang mereka terima dari pengalaman. Bagaimana kita menilai tetap titik-titik dalam sistem? Atau membangun kesetimbangan untuk tertentu game setup? Atau mekanisme desain untuk menegakkan "baik" perilaku? Atau model perilaku evolusi kelompok sedemikian sistem skala besar- sistem pendokumentasian? Mungkin yang paling penting, bagaimana kita melakukan kebalikannya
teori permainan kesetimbangan mengidentifikasi masalah biaya terjangkau dan mekanisme insinyur untuk mencegah mereka datang tentang? 66 Analisis Web Jawaban untuk pertanyaan-pertanyaan tersebut muncul pada (setidaknya) dua tingkat. Pertama semua, perilaku pengguna dalam hal (netral-dikandung) tuntutan untuk informasi perlu dikoordinasikan dalam kemampuan jaringan fisik arus informasi di sepanjang kabel fisik yang sebenarnya. Koordinasi dan routing informasi perlu terjadi tanpa fric- tion, dan teori permainan harus nilai dalam pemodelan tersebut. Dan detik- ondly, perilaku ditafsirkan pengguna Web harus sedemikian rupa sehingga potensi penipuan dan bentuk mahal lainnya perilaku min- imised. Tidak ada solusi rekayasa untuk masalah kepercayaan (lihat Bagian 5.4.4), namun di sisi lain mungkin ada cara-cara teknik Web sehingga dapat dipercaya bahwa perilaku bisa adil dihargai tanpa membebankan biaya terlalu banyak pada pengguna atau mengurangi jumlah interaksi- tions begitu drastis bahwa efek jaringan menguntungkan diminimalkan.
Informasi pengambilan model Sebuah paradigma penting kedua adalah bahwa pencarian informasi. IR adalah fokus untuk perlombaan senjata antara algoritma untuk mengekstrak informasi dari repositori yang kedua repositori mendapatkan lebih besar dan lebih kompleks,
dan tuntutan pengguna lebih sulit untuk memuaskan (baik dalam hal respon waktu atau kompleksitas dari query). Satu masalah yang jelas berkenaan dengan IR melalui Web adalah bahwa Web tidak memiliki otoritas QA. Siapapun dengan account ISP dapat menempatkan halaman di Web, dan dikenal Web telah menjadi situs prolifer a- asi teori konspirasi, legenda perkotaan, trivia dan fantasi, serta sebagai penderitaan dari semua gejala informasi unmanaged seperti out-of-date halaman dan duplikasi, semua kesulitan yang berkaitan dengan mul- timedia representasi, dan semua indeterminacies diperkenalkan oleh kurangnya ketat terkendala representasi pengetahuan. Memahami persis informasi apa yang tersedia pada halaman yang menunggu untuk diambil tetap menjadi masalah serius. Mungkin lebih tepatnya, IR tradisional telah digunakan di jinak lingkungan di mana massa data ditambang untuk nugget akal; masalah khas adalah kompleksitas dan kurangnya pola. Benchmark koleksi dokumen bagi para peneliti IR cenderung berkualitas tinggi dan hampir tidak pernah sengaja menyesatkan, seperti koleksi ilmiah
makalah dalam jurnal khusus. Web-lain seperti mini-struktur yang dapat digunakan, seperti Intranet, juga ditandai dengan itikad baik dengan informasi yang disajikan. Namun upaya berbahaya untuk menumbangkan sistem IR sangat yang mendukung Web begitu baik semakin umum. IR berbasis web harus menghadapi tidak hanya skala dan kompleksitas informasi, tetapi upaya potensi untuk condong hasilnya dengan konten dimaksudkan untuk menyesatkan [139]. 4.2.3 Struktur berbasis pencarian Hasil IR yang benar-benar dibawa ke dalam usia pencarian Web adalah penemuan bahwa adalah mungkin untuk membuat perbedaan heuristik antara link tersebut yang muncul untuk menunjukkan kualitas terkait-ke situs, dan mereka yang tidak [171, 221], hanya berdasarkan perhitungan nilai eigen matriks yang berhubungan dengan struktur link subgraphs lokal. Juga tidak HITS algoritma juga tidak Kleinberg Page et al PageRank dibutuhkan dalam lain masukan dari struktur dinyatakan uninterpreted dari hyperlink ke dan dari halaman Web. Masalah duplikasi menarik dalam konteks ini paradigma. Metode apa yang dapat ditemukan untuk mengidentifikasi halaman duplikat saat struktur hyperlink mungkin telah berubah secara dramatis, dan ketika aspek lain dari konten seperti header, footer atau format mungkin telah berubah serta [76]? Bisakah metode tersebut dapat membantu dalam mengungkap cache halaman yang tidak tersedia di lokasi asli mereka? Apakah kegigihan menghasilkan informasi dalam halaman Web sebenarnya menjadi hal yang baik, mengingat bahwa pemeliharaan informasi online repositori sudah salah satu biaya utama pengetahuan berbasis web manajemen? Mengevaluasi efektivitas pencarian Web dan pengambilan teknik, terutama mengingat uang yang harus dibuat dari pencarian [25] - IPO Google pada tahun 2004 senilai perusahaan sekitar $ 30 milyar dalam bimbang- ing pasar saham - secara alami fokus dari banyak penelitian. Metrik kinerja mesin yang muncul sepanjang waktu, berfokus pada efektivitas- keefektifan dari pencarian, dan perbandingan mesin yang berbeda [76]. Tujuan pencarian adalah untuk mengambil halaman yang relevan dengan pengguna query, yaitu mereka halaman yang, ketika diakses, baik memberikan pembaca dengan informasi terkait, atau titik pembaca untuk sumber daya lain yang 68 Analisis Web mengandung itu. Jadi kita bisa melihat tindakan IR berbasis mesin pencari presisi - dengan kata lain, proporsi halaman kembali yang yang relevan - atau mengingat, proporsi halaman relevan yang dikembalikan (Cf. [280]). Tak usah dikatakan bahwa apa yang mesin pencari mereka- diri mencari (di metalevel, sehingga untuk berbicara) adalah sihir-combi bangsa presisi tinggi dan recall tinggi - meskipun menentukan recall meliputi penentuan, setidaknya sekitar, jumlah yang relevan halaman di seluruh Web secara keseluruhan, yang perlu untuk mengatakan sebuah terutama perempuan, larly masalah yang sulit. Search engine juga harus berjuang untuk tetap saat ini, oleh Mengindeks ulang sesering mungkin, konsisten dengan menekan biaya, sebagai Web tumbuh dan halaman individu diedit atau diubah sebagai database mendasari mereka mengubah [43]. Search engine dapat dibandingkan dengan menggunakan berbagai parameter, baik itu liputan mereka (jumlah hits kembali query yang diberikan, terutama melihat jumlah hits hanya dicapai oleh mesin pencari), relevansi dari halaman kembali; waktu diambil, atau kualitas kembali. Sebagai salah satu harapkan, mesin yang berbeda melakukannya dengan baik pada metrik yang berbeda [76].
Matematika metode untuk menggambarkan struktur Memahami matematika dan topologi dari Web adalah praktis- kal impor untuk memahami invariants dari pengalaman Web dan Oleh karena itu menyediakan peta jalan untuk ekstensi ke Web. Yang penting properti yang memiliki Web adalah ketahanan dalam menghadapi undermin- ing pengaruh; baik hacker maupun kesalahan yang tak terelakkan dalam fisik jaringan sangat mengganggu Web, meskipun sesuatu seperti satu router dalam empat puluh turun di setiap saat satu. si Barab dan rekan [253] advokasi- sebuah peduli penggunaan teori perkolasi, studi tentang proses dalam ideal acak 2 (atau lebih) media dimensi [119], untuk melihat topologi kontribusi terhadap toleransi kesalahan. Sebagai contoh telah ditunjukkan bahwa untuk bebas skala jaringan, untuk konektivitas eksponen G <3 (pada asumsi yang- tion konektivitas node didistribusikan menurut kuasa hukum), acak menghapus node tidak akan fragmen jaringan ke discon- pulau dihubungkan [63]. Sebagaimana telah kita lihat, pada asumsi bahwa Web adalah jaringan skala bebas dengan distribusi power law, eksponen G 4.2. Web matematika 69 secara signifikan kurang dari tiga, dan Web harus sangat sulit untuk fragmen (walaupun [63] difokuskan pada menunjukkan ketahanan Internet secara keseluruhan). Para teoritis hasil back up komputer empiris-sim ketentuan-yang menunjukkan bahwa menghapus sampai 80% dari node dari yang besar jaringan skala bebas masih menyisakan cluster dihubungkan kompak [21]. Di sisi lain, teori perkolasi menunjukkan bahwa skala bebas net- karya agak lebih rentan terhadap terarah, serangan terkoordinasi, bahkan jika mereka tahan terhadap kegagalan acak. Non-acak kegagalan bisa merusak jika mereka menargetkan situs yang sangat-terhubung dalam par-
khusus mereka, kegagalan sejumlah kecil hub secara dramatis dapat meningkatkan diameter Web (dalam hal jumlah terkecil klik diperlukan untuk pergi dari satu halaman yang dipilih secara acak lain), dan kegagalan dari sejumlah besar situs yang sangat-tersambung bisa menyebabkan fragmen- tation [64].
Matematika metode untuk menggambarkan layanan Sebagai Web berkembang untuk memasukkan model layanan, di mana perangkat lunak agen
dan layanan Web akan hidup online dan dipanggil oleh pengguna, dan di mana metafora yang semakin penting adalah bahwa klien menghubungi penyedia layanan, representasi matematika baru, formalisms dan teori menjadi berguna untuk menggambarkan hubungan ini. Teori Petri jaring sistem terdistribusi [269, 298] model diskrit U raian, dari mana Web adalah contoh utama. Teori yang berlaku menambahkan pengertian concurrency dengan ide dari mesin negara, dan telah disarankan sebagai sarana penting model layanan Web [296]. Pro- aljabar cess, seperti CSP [141] atau CCS [203] juga dapat model paralel pengolahan. Mereka menyediakan sebuah array konstruksi untuk model dinamika
pengolahan informasi dan komunikasi output dan meminta input, seperti kebijakan, urutan tindakan, fungsi pilihan, proses dan metode sinkronisasi. Salah satu perkembangan terbaru adalah π-kalkulus (bernama analogi ke λ-kalkulus), yang merupakan pengembangan aljabar proses (khusus suatu cabang CCS) dirancang untuk menyediakan mobilitas dalam pemodelan pro- proses-proses. The π-kalkulus sengaja minim (mengandung sedikit lebih dari saluran komunikasi, variabel, replikasi dan concurrency), 70 Analisis Web tetapi dapat diperluas dengan mudah untuk mencakup fungsi urutan pertama dan dasar pemrograman konstruksi [204, 1]. Sebagaimana telah kita lihat (Bagian 3.3.1) ada kebutuhan untuk bahasa untuk menggambarkan layanan web (seperti CDL atau BPEL), dan mungkin bahwa
matematika yang tercantum di sini bisa mendukung bahasa tersebut. Ada hidup perdebatan tentang jala Petri dan π-kalkulus [24], berfokus pada manfaat relatif dari, jaring negara berbasis grafis, dan semakin tekstual, linier, aljabar proses-event [276].

Tidak ada komentar:

Poskan Komentar