Hỏi/ Thắc mắc - Có phần mềm trích xuất dữ liệu website nào như thế này không ? | VN-Zoom | Cộng đồng Chia Sẻ Kiến Thức Công Nghệ và Phần Mềm Máy Tính

Adblocker detected! Please consider reading this notice.

We've detected that you are using AdBlock Plus or some other adblocking software which is preventing the page from fully loading.

We need money to operate the site, and almost all of it comes from our online advertising.

If possible, please support us by clicking on the advertisements.

Please add vn-z.vn to your ad blocking whitelist or disable your adblocking software.

×

Hỏi/ Thắc mắc Có phần mềm trích xuất dữ liệu website nào như thế này không ?

IvanOoze

Búa Gỗ
Mình đang tìm phần mềm trích xuất dữ liệu website mà có các chức năng như thế này :

1. Nó có tính năng trích xuất dữ liệu ra file SQL, HTML,...

  • Ví dụ khi mình dùng phần mềm mở 1 trang bài viết (abc.com/bai-viet-1.html), sẽ có tiêu đề, có những bình luận của bài viết và phần phân trang cho bài viết. Thì khi mình di chuột đến mục nào, phần mềm sẽ tô màu tạm thời cho mục đó.

  • Nếu mình click chọn 1 mục, mục đó sẽ được tô màu giữ nguyên 1 cách chính thức.

  • Nếu mình chọn 1 bình luận của bài viết thì phần mềm sẽ tô màu cho hàng loạt các bình luận khác trong bài viết đó, nhằm mục đích để tạo ra công thức (regex) cho các bình luận đó và tạo ra 1 list danh sách các bình luận của bài viết đó (bao gồm tất cả các trang của bài viết đó, nếu tính cả phân trang).

  • Sau khi click chọn các mục trong bài viết, cũng như click chọn phần phân trang, thì phần mềm sẽ tạo ra công thức cho các mục đã chọn, ứng với link bài viết này. Đồng thời lưu lại cái công thức dạng này.

  • Khi mở 1 bài viết khác của trang web đang xem mà có cùng công thức dạng như vừa nói thì chỉ việc chọn công thức là xuất ra luôn không cần phải thao tác lại nữa.

  • Khi mở 1 trang bài viết vừa nói hoặc bất kể 1 trang web nào trên trình duyệt của phần mềm, thì nó có nút chức năng "Favorite" cho phép mình lưu cái url này lại để lúc nào vào menu "Menu Favorite Links" nó sẽ liệt kê ra các url mà ta đã lưu, tiện lợi cho việc xem lại. Ví dụ nếu ta lưu trang abc.com vào Favorite, thì sẽ có tên menu của trang web :

abc.com​

<== Trong menu này nó sẽ liệt kê ra các menu con dạng abc.com/x, abc.com/y, abc.com/bai-viet.html,... <== nếu như ta lưu các url (có cùng tên miền abc.com) vào trong Favorite.​

  • Khi trích xuất ra file .SQL thì trích xuất ra luôn không cần hỏi kết nối csdl, server name như thế nào, user, pass như thế nào. Vì ở đây là mình lưu trên localhost nên không cần phải chuỗi kết nối gì cả, cứ thế xuất ra file .SQL luôn.

2. Đôi khi có những lúc mình chỉ muốn xem các bài viết chứ chưa cần trích xuất dữ liệu ra file SQL. Tức là mình chỉ muốn lấy nội dung bài viết về phần mềm và hiển thị ra.

Ví dụ khi mở 1 url link bài viết trên phần mềm thì nó sẽ cho phép ta click chuột vào tiêu đề, click vào các bình luận (các post) của bài viết đó, cũng như các phần mình muốn xem. Sau đó click vào nút Submit một cái thì phần mềm sẽ chỉ hiển thị ra những cái thứ mà mình vừa chọn (vừa click) thôi chứ không hiển thị ra tất cả những thứ linh tinh khác của trang bài viết đó (ví dụ như quảng cáo, chức năng phụ, cột phải, cột trái, footer,...)
 

malemkhoang

Rìu Chiến
Mình thấy mô tả này cơ bản là tương tự như trình duyệt web vậy.
Vào trình duyệt rồi nhấn phím F12, rồi Bookmark, rồi History...
Công thức:
.top_story > ul:nth-child(2)
.latest_story > div:nth-child(1)
div.ms_list_item:nth-child(18) > div:nth-child(2)

html#most_reading-page.js.no-mobile.desktop.no-ie.ff.ff85.root-section.gradient.rgba.opacity.textshadow.multiplebgs.boxshadow.borderimage.borderradius.no-cssreflections.csstransforms.csstransitions.no-touch.no-retina.fontface.domloaded.w-1304.gt-240.gt-320.gt-480.gt-640.gt-768.gt-800.gt-1024.gt-1280.lt-1440.lt-1680.lt-1920.no-portrait.landscape body#story_bodi div#globalContainer div#motsach_right_menu_box div#motsach_right_menu_body div#motsach_right_menu_body_content div.top_story ul.right_menu_list_box
html#most_reading-page.js.no-mobile.desktop.no-ie.ff.ff85.root-section.gradient.rgba.opacity.textshadow.multiplebgs.boxshadow.borderimage.borderradius.no-cssreflections.csstransforms.csstransitions.no-touch.no-retina.fontface.domloaded.w-1304.gt-240.gt-320.gt-480.gt-640.gt-768.gt-800.gt-1024.gt-1280.lt-1440.lt-1680.lt-1920.no-portrait.landscape body#story_bodi div#globalContainer div#motsach_right_menu_box div#motsach_right_menu_body div#motsach_right_menu_body_content div.latest_story div.ms_chapter

/html/body/div[2]/div[2]/div[2]/div/div[6]/ul
/html/body/div[2]/div[2]/div[2]/div/div[4]/div

Vô vàn công thức...
 


Top