[ad_1]
Dunia virtual kami mengeluarkan pertunjukan information setiap hari, informasi yang penting bagi pemerintah untuk berfungsi, bagi bisnis untuk berkembang, dan bagi kami untuk dapatkan hal yang benar yang kami pesan (termasuk warna yang tepat) dari pasar on-line favorit kami.
ADVERTISEMENT
SCROLL TO RESUME CONTENT
Tidak hanya ada beberapa besar information yang ada, namun dan ada sejumlah besar proses untuk diterapkan padanya dan begitu sejumlah besar hal yang dapat salah. Itu sebabnya analis information dan insinyur information beralih ke pipa information.
Artikel ini memberi Anda semua yang perlu Anda ketahui tentang pemasangan information, termasuk apa artinya, bagaimana itu disatukan, alat pipa information, mengapa kita membutuhkannya, dan bagaimana merancangnya. Kita mulai dengan apa adanya dan mengapa kita harus segera peduli.
Mengapa kita membutuhkan jalur pipa information?
Perusahaan yang digerakkan information perlu dipindahkan secara efisien dari satu lokasi ke lokasi lain dan berubah menjadi informasi yang bisa ditindaklanjuti secepat mungkin saja. Sayangnya, ada sejumlah besar hambatan untuk membersihkan aliran information, seperti kemacetan (yang dapat mengakibatkan latensi), korupsi information, atau beberapa sumber information yang menghasilkan informasi yang bertentangan atau redundan.
Pipa information mengambil semua langkah guide yang diperlukan untuk menghentikan masalah tersebut dan mengubah proses menjadi alur kerja yang mulus dan otomatis. Meski demikian tidak setiap bisnis atau organisasi membutuhkan pemasangan information, prosesnya paling berguna untuk perusahaan mana pun yang:
- Buat, bergantung pada, atau mendatanya information dalam jumlah besar, atau information dari sejumlah besar sumber
- Bergantung pada analisis information yang terlalu rumit atau real-time
- Memakai cloud untuk penyimpanan information
- Pertahankan sumber information yang disenakan
Selain itu, jalur pipa information meningkatkan proteksi dengan membatasi akses ke tim yang berwenang saja. Intinya adalah semakin sejumlah besar perusahaan yang bergantung pada information, semakin membutuhkan pipa information, salah satu alat analisis bisnis yang paling kritis.
Apa itu pipa information?
Kita tahu pipa apa itu, sistem pipa besar yang membawa sumber daya dari satu lokasi ke lokasi lain dalam jarak jauh. Kami biasanya mendengar tentang saluran pipa dalam konteks minyak atau fuel alam. Mereka cara cepat, efisien untuk memindahkan dengan jumlah besar subject material dari satu titik ke titik lain.
Jalur pipa information beroperasi pada prinsip yang sama; Hanya mereka berurusan dengan informasi daripada cairan atau fuel. Pipa information adalah urutan langkah pemrosesan information, sejumlah besar dari mereka dilakukan dengan perangkat lunak khusus. Pipa memutuskan bagaimana, apa, dan di mana information dikumpulkan. Knowledge Pipelining mengotomatiskan ekstraksi information, transformasi, validasi, dan kombinasi, kemudian memuatnya untuk analisis dan visualisasi lebih lanjut. Seluruh pipa memberikan kecepatan dari satu ujung ke ujung lainnya dengan menghilangkan kesalahan dan menetralkan hambatan atau latensi.
Kebetulan, pipa information besar dan ada. Large Knowledge ditandai oleh lima V (varietas, quantity, kecepatan, kebenaran, dan nilai). Jalur pipa information besar adalah saluran pipa yang bisa diskalakan yang dirancang untuk menangani satu atau lebih karakteristik “V” Large Knowledge, bahkan mengenali dan memproses information dalam berbagai layout, seperti struktur, tidak terstruktur, dan semi-terstruktur.
Semua tentang arsitektur pipa information
Kami mendefinisikan arsitektur pipa information sebagai sistem lengkap yang dirancang untuk menangkap, mengendalikan, dan mengirimkan information yang digunakan untuk wawasan yang akurat dan bisa ditindaklanjuti. Arsitektur ada untuk memberikan desain yang paling baik untuk mengelola semua acara information, membuat analisis, pelaporan, dan penggunaan lebih mudah.
Analis dan insinyur information menerapkan arsitektur pipa untuk memungkinkan information meningkatkan kecerdasan bisnis (BI) dan analitik, dan fungsionalitas yang ditargetkan. Kecerdasan bisnis dan analitik memakai information untuk memperoleh wawasan dan efisiensi dalam informasi dan tren waktu-nyata.
Fungsionalitas yang diaktifkan information meliputi subjek penting seperti antar-jemput pelanggan, goal perilaku pelanggan, otomatisasi proses robotic, dan pengalaman pengguna.
Kami memecah arsitektur pipa information menjadi serangkaian bagian dan proses, termasuk:
Sumber
Bagian ini adalah dari mana semuanya berawal, dari mana informasi itu berasal. Tahapan ini berpotensi melibatkan berbagai sumber, seperti API aplikasi, cloud, database relasional, NoSQL, dan Apache Hadoop.
Bergabung
Knowledge dari sumber yang berbeda tak henti-hentinya digabungkan sebab bergerak melalui pipa. Bergabung dengan daftar kriteria dan logika untuk bagaimana information ini bersatu.
Ekstraksi
Analis information mungkin saja menginginkan information spesifik tertentu yang ditemukan di bidang yang lebih besar sekali, seperti kode arena di bidang kontak nomor telepon. Terkadang, bisnis membutuhkan sejumlah besar nilai yang dirakit atau diekstraksi.
Standardisasi
Katakanlah Anda mempunyai beberapa information yang terdaftar dalam mil dan information lain dalam kilometer. Standardisasi memastikan semua information mengikuti unit pengukuran yang sama dan disajikan dalam ukuran, font, dan warna yang bisa diterima.
Koreksi
Andai Anda mempunyai information, maka Anda akan mempunyai kesalahan. Ini dapat menjadi sesuatu yang sederhana seperti kode pos yang tak ada atau akronim yang membingungkan. Fase koreksi juga menghilangkan catatan korup.
Beban
Setelah information dibersihkan, itu dimuat ke dalam sistem analisis yang tepat, biasanya gudang information, database relasional lain, atau kerangka kerja Hadoop.
Otomatisasi
Knowledge pipa memakai proses otomatisasi baik secara tak henti-hentinya atau sesuai jadwal. Proses otomatisasi menangani deteksi kesalahan, laporan standing, dan pemantauan.
Alat dan solusi pipelining information datang dalam berbagai bentuk, namun semuanya mempunyai tiga persyaratan yang sama:
- Ekstrak information dari beberapa sumber information yang relevan
- Membersihkan, mengubah, dan memperkaya information dengan begitu bisa siap untuk dianalisis
- Muat information ke satu sumber informasi, biasanya danau information atau gudang information
Berikut adalah empat jenis alat pipa information yang paling populer, termasuk beberapa produk tertentu:
Kelompok
Alat pemrosesan batch paling cocok untuk memindahkan information dalam jumlah besar pada interval yang dijadwalkan secara tertata, namun Anda tidak memerlukannya secara real-time. Alat pipa populer mencakup:
- Informatica PowerCenter
- IBM Infosphere DataStage
Cloud-asli
Alat-alat ini dioptimalkan untuk bekerja dengan information berbasis cloud, seperti ember Amazon Internet Products and services (AWS). Sebab cloud juga meng-host alat, organisasi menghemat biaya infrastruktur in-house. Alat pipelining information cloud-asli mencakup:
Open-source
Contoh klasik dari “Anda dapatkan apa yang Anda bayar,” alat open supply adalah sumber daya yang dibangun di rumah atau disesuaikan oleh staf berpengalaman organisasi Anda. Alat sumber terbuka mencakup:
Waktu nyata
Seperti namanya, alat-alat ini dirancang untuk menangani information secara real-time. Solusi ini sangat cocok untuk memproses information dari sumber streaming seperti information telemetri dari perangkat yang terhubung (seperti Web of Issues) atau pasar keuangan. Alat pipa information real-time mencakup:
- Anak sungai
- Knowledge hevo
- Streamset
Contoh pipa information
Berikut adalah tiga contoh pipa information spesifik, yang biasa digunakan oleh pengguna teknis dan non-teknis:
Pipa pertukaran information B2B
Bisnis bisa mengirim dan menerima dokumen terstruktur atau tidak terstruktur yang kompleks, termasuk dokumen Nacha dan EDI dan transaksi Swift dan HIPAA, dari bisnis lain. Perusahaan memakai jaringan pipa pertukaran information B2B untuk bertukar formulir seperti pesanan pembelian atau standing pengiriman.
Pipa Kualitas Knowledge
Pengguna bisa menjalankan pipa kualitas information dalam mode batch atau streaming, tergantung pada kasus penggunaan. Pipa kualitas information berisi fungsi seperti menstandarisasi semua nama pelanggan baru secara berkala. Tindakan memvalidasi alamat pelanggan secara real-time sepanjang persetujuan aplikasi kredit akan dianggap hal itu sebagai bagian dari pipa kualitas information.
Pipa MDM
Grasp Knowledge Control (MDM) bergantung pada pencocokan dan penggabungan information. Pipa ini melibatkan pengumpulan dan pemrosesan information dari berbagai sumber, mencari tau catatan duplikat, dan menggabungkan hasilnya menjadi satu catatan emas.
Desain dan pertimbangan pipa information atau cara membangun pipa information
Sebelum Anda masuk ke bisnis yang pada nyatanya membangun pipa information, terlebih dahulu Anda harus segera memutuskan faktor -faktor spesifik yang akan memengaruhi desain Anda. Tanyakan pada diri Anda:
- Apa tujuan pipa? Mengapa Anda membutuhkan pipa, dan apa yang ingin Anda capai? Apakah akan memindahkan information sekali, atau akankah itu mengulang?
- Jenis information apa yang terlibat? Berapa sejumlah besar information yang Anda harapkan untuk bekerja? Apakah information terstruktur atau tidak terstruktur, streaming atau disimpan?
- Bagaimana information akan digunakan? Apakah information akan digunakan untuk pelaporan, analitik, ilmu information, kecerdasan bisnis, otomatisasi, atau pembelajaran mesin?
Setelah Anda mempunyai pemahaman yang lebih baik tentang faktor -faktor desain, Anda bisa untuk memilih antara tiga cara yang diterima untuk membuat arsitektur pipa pemrosesan information.
Alat persiapan information
Pengguna mengandalkan alat persiapan information tradisional seperti spreadsheet untuk memvisualisasikan information dengan lebih baik dan bekerja dengannya. Sayangnya, ini juga berarti pengguna harus segera secara guide menangani setiap dataset baru atau membuat makro yang kompleks. Untungnya, ada alat persiapan information perusahaan yang tersedia untuk mengubah langkah persiapan information menjadi pipa information.
Alat desain
Anda bisa memakai alat yang dirancang untuk membangun pipa pemrosesan information dengan setara digital blok bangunan mainan, dibantu oleh antarmuka yang mudah digunakan.
Pengkodean tangan
Pengguna memakai kerangka kerja dan bahasa pemrosesan information seperti Kafka, MapReduce, SQL, dan Spark. Atau Anda bisa memakai kerangka kerja berpemilik seperti AWS Glue dan Databricks Spark. Pendekatan ini mengharuskan pengguna untuk mengetahui cara memprogram.
Dalam hal apa pun, Anda perlu untuk memilih pola desain pipa information mana yang sangat cocok untuk kebutuhan Anda dan mengimplementasikannya. Itu termasuk:
Beban information mentah
Desain sederhana ini menggerakkan information besar -besaran, tidak dimodifikasi dari satu database ke database lainnya
Ekstrak-Change into-Load
Desain ini mengekstrak information dari penyimpanan information dan mengubah (andaikan, bersih, standarisasi, mengintegrasikan) sebelum memuatnya ke dalam database goal
Ekstrak-load-transform
Desain ini seperti ETL, namun langkah -langkahnya diubah untuk menghemat waktu dan menghindari latensi. Transformasi information terjadi di database goal
Virtualisasi information
Sedangkan sebagian besar jaringan pipa membuat salinan fisik information yang disimpan, virtualisasi memberikan information sebagai tampilan tanpa secara fisik mendatanya salinan yang terpisah
Pemrosesan aliran information
Proses ini mengalirkan information peristiwa dalam aliran kontinu dalam urutan kronologis. Proses Parses Acara, mengisolasi setiap peristiwa unik menjadi catatan yang berbeda, memungkinkan evaluasi penggunaan di masa depan
Pilih program yang tepat
Kami telah menyusun perbandingan kursus yang komprehensif untuk kenyamanan Anda, memungkinkan Anda untuk membuat pilihan program splendid yang mendorong karier sains information Anda ke depan. Perbandingan terperinci ini memberikan wawasan berharga ke dalam kursus kami, membantu Anda dalam memutuskan berdasarkan informasi untuk dapat mempercepatnya pertumbuhan profesional Anda di bidang ilmu information.
Nama program Program Grasp Ilmuwan Knowledge Program pascasarjana dalam ilmu information Geo Semua geos Semua geos Universitas Simplilearn Purdue Durasi kursus 11 bulan 11 bulan Diperlukan pengalaman pengkodean Dasar Dasar Keterampilan yang akan Anda pelajari 10+ Keterampilan termasuk struktur information, manipulasi information, numpy, scikit-learn, tableau dan sejumlah besar lagi 8+ keterampilan termasuk
Analisis information eksplorasi, statistik deskriptif, statistik inferensial, dan sejumlah besar lagiManfaat tambahan Pembelajaran Terapan melalui Capstone dan 25+ Proyek Ilmu Knowledge Keanggotaan Asosiasi Alumni Purdue
IIMJOBS GRATIS Pro-Kir hati 6 bulan
Melanjutkan bantuan bangunanBiaya $$ $$$$ Jelajahi program Jelajahi program
Apakah Anda ingin menjadi profesional ilmu information?
SimpleArn menawarkan program sertifikat profesional dalam rekayasa information yang memberi Anda keterampilan yang diperlukan untuk menjadi insinyur information yang bisa melakukan perpipaan information. Program ini, dilaksanakan bersama dengan Universitas Purdue dan kolaborasi dengan IBM, mengkhususkan diri dalam pemrosesan terdistribusi memakai kerangka kerja Hadoop, pemrosesan information skala besar memakai Spark, Knowledge Pipeline dengan Kafka, dan information besar pada AWS dan infrastruktur cloud Azure.
(TagStotranslate) Pipelining Knowledge (T) Apa itu Pipelining Knowledge (T) Apa itu Knowledge Pipeline (T) Knowledge Pipeline Archeline (T) Knowledge Pipeline Gear (T) Desain Pipa Knowledge (T) Cara Membangun Pipeline Knowledge
[ad_2]
Sumber: simplilearn-com








