Crawl data từ website howkteam với Regex...

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

Crawl data từ website howkteam.com Crawl data từ website howkteam.com Crawl data từ website howkteam.com Crawl data từ website howkteam.com Crawl data từ website howkteam.com 4/5 (10 reviews)

Crawl data từ website howkteam.com

Đã đăng 2017-05-21 02:10:41 bởi Kteam
11 bình luận 4705 lượt xem
Crawl data từ website howkteam.com 4 /5 stars (2 reviews)
 

Dẫn nhập

Với những ứng dụng mạnh mẽ của REGEX  và WPF. Cộng với khả năng lấy dữ liệu từ website bất kì với Http Client. Thì chuyện làm ra một ứng dụng CRAWL DATA từ một website như Howkteam.com là quá đơn giản.

Serial này sẽ là bài tập đầu tiên về Regular expression cho các bạn luyện tập!


Nội dung

Nội dung hiện tại mang tính tạm thời đáp ứng nhu cầu xem & cập nhập kiến thức cơ bản thông qua Video hướng dẫn.

Nội dung chi tiết của khóa học CRAWL DATA TỪ HOWKTEAM.COM đang trong quá trình xây dựng một cách kỹ lưỡng nhằm đảm bảo chất lượng và sẽ được cập nhập liên tục trong thời gian tới.

Các bạn nhớ theo dõi và luôn ủng hộ Kteam nhé!

Để theo dõi tốt khóa học này, hãy đảm bảo bạn đã xem qua kiến thức về


Project tham khảo

Code MainWindow.xaml

<Window x:Class="CrawlDataFromHowKteam.MainWindow"
        xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
        xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
        xmlns:d="http://schemas.microsoft.com/expression/blend/2008"
        xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006"
        xmlns:local="clr-namespace:CrawlDataFromHowKteam"
        mc:Ignorable="d"
        Title="MainWindow" Height="350" Width="525">
    <Grid>
        <Grid.RowDefinitions>
            <RowDefinition Height="auto"></RowDefinition>
            <RowDefinition></RowDefinition>
        </Grid.RowDefinitions>
        <Grid.ColumnDefinitions>
            <ColumnDefinition Width="250"></ColumnDefinition>
            <ColumnDefinition></ColumnDefinition>
        </Grid.ColumnDefinitions>
        <Grid Grid.Column="0" Grid.Row="0">
            <Button Click="Button_Click_1">Load data</Button>
        </Grid>
        <Grid Grid.Column="1" Grid.Row="0">
            <Button Click="Button_Click">Add item into tree view</Button>
        </Grid>

        <TreeView x:Name="treeMain" Grid.Column="0" Grid.Row="1">
            <TreeView.ItemTemplate>
                <HierarchicalDataTemplate ItemsSource="{Binding Items}">

                    <Button Click="Button_Click_2" Content="{Binding Name}" Tag="{Binding URL}"></Button>

                </HierarchicalDataTemplate>
            </TreeView.ItemTemplate>
        </TreeView>
        <WebBrowser x:Name="wbMain" Grid.Column="1" Grid.Row="1"></WebBrowser>
    </Grid>
</Window>

 

Code MainWindow.xaml.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Diagnostics;
using System.Linq;
using System.Net;
using System.Net.Http;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using System.Windows;
using System.Windows.Controls;
using System.Windows.Data;
using System.Windows.Documents;
using System.Windows.Input;
using System.Windows.Media;
using System.Windows.Media.Imaging;
using System.Windows.Navigation;
using System.Windows.Shapes;

namespace CrawlDataFromHowKteam
{
    /// <summary>
    /// Interaction logic for MainWindow.xaml
    /// </summary>
    public partial class MainWindow : Window
    {
        #region properties
        ObservableCollection<MenuTreeItem> TreeItems;
        string HomePage = "https://www.howkteam.com/";

        HttpClient httpClient;
        HttpClientHandler handler;
        CookieContainer cookie = new CookieContainer();


        #endregion
        public MainWindow()
        {
            InitializeComponent();

            IniHttpClient();            

            TreeItems = new ObservableCollection<MenuTreeItem>();            
            treeMain.ItemsSource = TreeItems;
        }

        #region methods
        void IniHttpClient()
        {
            handler = new HttpClientHandler
            {
                CookieContainer = cookie,
                ClientCertificateOptions = ClientCertificateOption.Automatic,
                AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,
                AllowAutoRedirect = true,
                UseDefaultCredentials = false
            };

            httpClient = new HttpClient(handler);

            //httpClient.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) coc_coc_browser/63.4.154 Chrome/57.4.2987.154 Safari/537.36");
            /*
             * Header:
             * - Origin
             * - Host
             * - Referer
             * - :scheme
             * - accept
             * - Accept-Encoding
             * - Accept-Language
             * - User-Argent
             */


            httpClient.BaseAddress = new Uri(HomePage);
        }
        void AddItemIntoTreeViewItem(ObservableCollection<MenuTreeItem> root, MenuTreeItem node)
        {
            treeMain.Dispatcher.Invoke(new Action(()=> {
                root.Add(node);
            }));
        }

        string CrawlDataFromURL(string url)
        {
            string html = "";
            
            html = httpClient.GetStringAsync(url).Result;

            //html = httpClient.PostAsync(url,new StringContent("")).Result.Content.ReadAsStringAsync().Result;

            return html;
        }

        void Crawl(string url)
        {
            string htmlLearn = CrawlDataFromURL(url);
            var CourseList = Regex.Matches(htmlLearn, @"<div class=""info-course(.*?)</div>", RegexOptions.Singleline);
            foreach (var course in CourseList)
            {
                string courseName = Regex.Match(course.ToString(), @"(?=<h5>).*?(?=</h5>)").Value.Replace("<h5>","");
                string linkCourse = Regex.Match(course.ToString(), @"'(.*?)'", RegexOptions.Singleline).Value.Replace("'","");

                MenuTreeItem item = new MenuTreeItem();
                item.Name = courseName;
                item.URL = linkCourse;

                AddItemIntoTreeViewItem(TreeItems, item);

                string htmlCourse = CrawlDataFromURL(linkCourse);
                string sideBar = Regex.Match(htmlCourse, @"<div class=""sidebardetail"">(.*?)</ul>", RegexOptions.Singleline).Value;
                var listLecture = Regex.Matches(sideBar, @"<li(.*?)</li>", RegexOptions.Singleline);
                foreach (var lecture in listLecture)
                {
                    string lectureName = Regex.Match(lecture.ToString(), @"<li title=""(.*?)"">", RegexOptions.Singleline).Value.Replace("\">", "").Replace("<li title=\"", "");
                    string linkLecture = Regex.Match(lecture.ToString(), @"<a href="/redirect?Id=uIhrA5uhSKAAOwy4r955eQ%3d%3d"(.*?)"">", RegexOptions.Singleline).Value.Replace("<a href="/redirect?Id=WeUvSTDVE8l2DW8fweMYdQ%3d%3d" "").Replace("\">","");

                    MenuTreeItem Subitem = new MenuTreeItem();
                    Subitem.Name = lectureName;
                    Subitem.URL = linkLecture;
                    item.Items.Add(Subitem);
                }
            }
        }
        #endregion

        private void Button_Click(object sender, RoutedEventArgs e)
        {
            MenuTreeItem item3 = new MenuTreeItem()
            {
                Name = "Item3",
                URL = "https://www.howkteam.com/Course/Lap-trinh-WPF-co-ban/TreeView-Binding-trong-Lap-trinh-WPF-1354",
                Items = new ObservableCollection<MenuTreeItem>()
                {
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"}
                }
            };

            AddItemIntoTreeViewItem(TreeItems[0].Items, item3);
        }

        private void Button_Click_1(object sender, RoutedEventArgs e)
        {
            Crawl("Learn");
        }

        private void Button_Click_2(object sender, RoutedEventArgs e)
        {
            string url =HomePage + (sender as Button).Tag.ToString();
            //wbMain.Navigate(url);
            Process.Start(url);
        }
    }
}

Code MenuTreeItem.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace CrawlDataFromHowKteam
{
    public class MenuTreeItem
    {
        public string Name { get; set; }
        public string URL { get; set; }
        public ObservableCollection<MenuTreeItem> Items { get; set; }
        public MenuTreeItem()
        {
            this.Items = new ObservableCollection<MenuTreeItem>();
        }
    }
}

 


Kết luận

Bài sau chúng ta sẽ cùng tìm hiểu về HOÀN THIỆN PHẦN MỀM CRAWL DATA TỪ WEBSITE HOWKTEAM.COM

Cảm ơn các bạn đã theo dõi bài viết. Hãy để lại bình luận hoặc góp ý của mình để phát triển bài viết tốt hơn. Và đừng quên “Luyện tập – Thử Thách – Không ngại khó

Chia sẻ:
Thảo luận Hỏi và đáp Báo lỗi bài viết
Hủy bỏ   hoặc  
Crawl data từ website howkteam.com
it fa 2018-10-21 17:10:02

e có thể thay  httpClient.GetStringAsync(url).Result; bằng driver.pageSource của seletium thì có khác gì k nhỉ. vì e thấy 1 số trang get string bằng httpclient k được (vd:facebook.com)

0 bình chọn
Reply
Crawl data từ website howkteam.com
Ajack Ti 2018-05-06 22:19:30

Hình như anh tháo cái thẻ ul li danh sách bài học rồi thì phải -_-

Em thử regex mấy cái bài học này thì không lấy được danh sách bài học(mất thẻ div id="sub-menu")???

Mong được câu trả lời =))

0 bình chọn
Reply
Crawl data từ website howkteam.com
alathuan2 2017-10-13 00:11:27

cảm ơn ADmin rất nhiều

0 bình chọn
Reply
Crawl data từ website howkteam.com
selecao_111 2017-08-01 22:36:56

Cày mệt quá hic, ai giúp m với :)

0 bình chọn
Reply
View all 1 comments
Kteam - Howkteam Free Education
phamduyanh2 2017-10-12 08:17:19
Chắc bình chọn giúp nhau thôi. :)
0 bình chọn
Reply
Crawl data từ website howkteam.com
Khánh Nguyễn 2017-06-09 16:13:45

dòng 123:                 string courseName = Regex.Match(course.ToString(), @"(?=<h2>).*?(?=</h2>)").Value.Replace("<h2>","");

trong bài của anh là h5, nhưng khi lấy về lại là h2....vậy cái sourse do anh đổi hay trang web tự updates vậy...thế khi làm tool thì trang mà update là tool hết dùng đc hả a? có cách nào khắc phục đc ko ạ...em cảm ơn!

1 bình chọn
Reply
View all 1 comments
Kteam - Howkteam Free Education
S1mKo 2017-09-09 19:48:55
web đổi resource mà bác, nên các dòng regex bác phải chỉnh sửa lại ko là ko bind ra đc đâu
0 bình chọn
Reply
Crawl data từ website howkteam.com
Nguyễn Việt Nam Sơn 2017-05-23 15:46:49

Anh upvote giúp nhau đi :D 

1 bình chọn
Reply
View all 3 comments
Kteam - Howkteam Free Education
Nguyễn Trung Hiếu 2017-05-25 18:33:09
không up vote được
0 bình chọn
Reply
Kteam - Howkteam Free Education
Nguyễn Trung Hiếu 2017-05-25 18:33:20
bấm hoài mà không được
0 bình chọn
Reply
Kteam - Howkteam Free Education
Phạm Tấn Thành 2017-05-28 13:29:21
chưa có up được đâu :3
0 bình chọn
Reply
Hủy bỏ   hoặc  
Hủy bỏ   hoặc  

Chiến dịch

Kteam - Howkteam Free Education