Crawl data từ website howkteam.com

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

0.0 (0 đánh giá)
Tạo bởi Kteam Cập nhật lần cuối 22:10 22-10-2017 5.843 lượt xem 11 bình luận
Học nhanh

Danh sách bài học

Crawl data từ website howkteam.com

Dẫn nhập

Với những ứng dụng mạnh mẽ của REGEX  và WPF. Cộng với khả năng lấy dữ liệu từ website bất kì với Http Client. Thì chuyện làm ra một ứng dụng CRAWL DATA từ một website như Howkteam.com là quá đơn giản.

Serial này sẽ là bài tập đầu tiên về Regular expression cho các bạn luyện tập!


Nội dung

Nội dung hiện tại mang tính tạm thời đáp ứng nhu cầu xem & cập nhập kiến thức cơ bản thông qua Video hướng dẫn.

Nội dung chi tiết của khóa học CRAWL DATA TỪ HOWKTEAM.COM đang trong quá trình xây dựng một cách kỹ lưỡng nhằm đảm bảo chất lượng và sẽ được cập nhập liên tục trong thời gian tới.

Các bạn nhớ theo dõi và luôn ủng hộ Kteam nhé!

Để theo dõi tốt khóa học này, hãy đảm bảo bạn đã xem qua kiến thức về


Project tham khảo

Code MainWindow.xaml

<Window x:Class="CrawlDataFromHowKteam.MainWindow"
        xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
        xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
        xmlns:d="http://schemas.microsoft.com/expression/blend/2008"
        xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006"
        xmlns:local="clr-namespace:CrawlDataFromHowKteam"
        mc:Ignorable="d"
        Title="MainWindow" Height="350" Width="525">
    <Grid>
        <Grid.RowDefinitions>
            <RowDefinition Height="auto"></RowDefinition>
            <RowDefinition></RowDefinition>
        </Grid.RowDefinitions>
        <Grid.ColumnDefinitions>
            <ColumnDefinition Width="250"></ColumnDefinition>
            <ColumnDefinition></ColumnDefinition>
        </Grid.ColumnDefinitions>
        <Grid Grid.Column="0" Grid.Row="0">
            <Button Click="Button_Click_1">Load data</Button>
        </Grid>
        <Grid Grid.Column="1" Grid.Row="0">
            <Button Click="Button_Click">Add item into tree view</Button>
        </Grid>

        <TreeView x:Name="treeMain" Grid.Column="0" Grid.Row="1">
            <TreeView.ItemTemplate>
                <HierarchicalDataTemplate ItemsSource="{Binding Items}">

                    <Button Click="Button_Click_2" Content="{Binding Name}" Tag="{Binding URL}"></Button>

                </HierarchicalDataTemplate>
            </TreeView.ItemTemplate>
        </TreeView>
        <WebBrowser x:Name="wbMain" Grid.Column="1" Grid.Row="1"></WebBrowser>
    </Grid>
</Window>

 

Code MainWindow.xaml.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Diagnostics;
using System.Linq;
using System.Net;
using System.Net.Http;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using System.Windows;
using System.Windows.Controls;
using System.Windows.Data;
using System.Windows.Documents;
using System.Windows.Input;
using System.Windows.Media;
using System.Windows.Media.Imaging;
using System.Windows.Navigation;
using System.Windows.Shapes;

namespace CrawlDataFromHowKteam
{
    /// <summary>
    /// Interaction logic for MainWindow.xaml
    /// </summary>
    public partial class MainWindow : Window
    {
        #region properties
        ObservableCollection<MenuTreeItem> TreeItems;
        string HomePage = "https://www.howkteam.com/";

        HttpClient httpClient;
        HttpClientHandler handler;
        CookieContainer cookie = new CookieContainer();


        #endregion
        public MainWindow()
        {
            InitializeComponent();

            IniHttpClient();            

            TreeItems = new ObservableCollection<MenuTreeItem>();            
            treeMain.ItemsSource = TreeItems;
        }

        #region methods
        void IniHttpClient()
        {
            handler = new HttpClientHandler
            {
                CookieContainer = cookie,
                ClientCertificateOptions = ClientCertificateOption.Automatic,
                AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,
                AllowAutoRedirect = true,
                UseDefaultCredentials = false
            };

            httpClient = new HttpClient(handler);

            //httpClient.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) coc_coc_browser/63.4.154 Chrome/57.4.2987.154 Safari/537.36");
            /*
             * Header:
             * - Origin
             * - Host
             * - Referer
             * - :scheme
             * - accept
             * - Accept-Encoding
             * - Accept-Language
             * - User-Argent
             */


            httpClient.BaseAddress = new Uri(HomePage);
        }
        void AddItemIntoTreeViewItem(ObservableCollection<MenuTreeItem> root, MenuTreeItem node)
        {
            treeMain.Dispatcher.Invoke(new Action(()=> {
                root.Add(node);
            }));
        }

        string CrawlDataFromURL(string url)
        {
            string html = "";
            
            html = httpClient.GetStringAsync(url).Result;

            //html = httpClient.PostAsync(url,new StringContent("")).Result.Content.ReadAsStringAsync().Result;

            return html;
        }

        void Crawl(string url)
        {
            string htmlLearn = CrawlDataFromURL(url);
            var CourseList = Regex.Matches(htmlLearn, @"<div class=""info-course(.*?)</div>", RegexOptions.Singleline);
            foreach (var course in CourseList)
            {
                string courseName = Regex.Match(course.ToString(), @"(?=<h5>).*?(?=</h5>)").Value.Replace("<h5>","");
                string linkCourse = Regex.Match(course.ToString(), @"'(.*?)'", RegexOptions.Singleline).Value.Replace("'","");

                MenuTreeItem item = new MenuTreeItem();
                item.Name = courseName;
                item.URL = linkCourse;

                AddItemIntoTreeViewItem(TreeItems, item);

                string htmlCourse = CrawlDataFromURL(linkCourse);
                string sideBar = Regex.Match(htmlCourse, @"<div class=""sidebardetail"">(.*?)</ul>", RegexOptions.Singleline).Value;
                var listLecture = Regex.Matches(sideBar, @"<li(.*?)</li>", RegexOptions.Singleline);
                foreach (var lecture in listLecture)
                {
                    string lectureName = Regex.Match(lecture.ToString(), @"<li title=""(.*?)"">", RegexOptions.Singleline).Value.Replace("\">", "").Replace("<li title=\"", "");
                    string linkLecture = Regex.Match(lecture.ToString(), @"<a href="/redirect?Id=uIhrA5uhSKAAOwy4r955eQ%3d%3d"(.*?)"">", RegexOptions.Singleline).Value.Replace("<a href="/redirect?Id=WeUvSTDVE8l2DW8fweMYdQ%3d%3d" "").Replace("\">","");

                    MenuTreeItem Subitem = new MenuTreeItem();
                    Subitem.Name = lectureName;
                    Subitem.URL = linkLecture;
                    item.Items.Add(Subitem);
                }
            }
        }
        #endregion

        private void Button_Click(object sender, RoutedEventArgs e)
        {
            MenuTreeItem item3 = new MenuTreeItem()
            {
                Name = "Item3",
                URL = "https://www.howkteam.com/Course/Lap-trinh-WPF-co-ban/TreeView-Binding-trong-Lap-trinh-WPF-1354",
                Items = new ObservableCollection<MenuTreeItem>()
                {
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"},
                    new MenuTreeItem() { Name = "sub item1", URL="sadsda"}
                }
            };

            AddItemIntoTreeViewItem(TreeItems[0].Items, item3);
        }

        private void Button_Click_1(object sender, RoutedEventArgs e)
        {
            Crawl("Learn");
        }

        private void Button_Click_2(object sender, RoutedEventArgs e)
        {
            string url =HomePage + (sender as Button).Tag.ToString();
            //wbMain.Navigate(url);
            Process.Start(url);
        }
    }
}

Code MenuTreeItem.cs

using System;
using System.Collections.Generic;
using System.Collections.ObjectModel;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace CrawlDataFromHowKteam
{
    public class MenuTreeItem
    {
        public string Name { get; set; }
        public string URL { get; set; }
        public ObservableCollection<MenuTreeItem> Items { get; set; }
        public MenuTreeItem()
        {
            this.Items = new ObservableCollection<MenuTreeItem>();
        }
    }
}

 


Kết luận

Bài sau chúng ta sẽ cùng tìm hiểu về HOÀN THIỆN PHẦN MỀM CRAWL DATA TỪ WEBSITE HOWKTEAM.COM

Cảm ơn các bạn đã theo dõi bài viết. Hãy để lại bình luận hoặc góp ý của mình để phát triển bài viết tốt hơn. Và đừng quên “Luyện tập – Thử Thách – Không ngại khó


Thảo luận

Nếu bạn có bất kỳ khó khăn hay thắc mắc gì về khóa học, đừng ngần ngại đặt câu hỏi trong phần BÌNH LUẬN bên dưới hoặc trong mục HỎI & ĐÁP trên thư viện Howkteam.com để nhận được sự hỗ trợ từ cộng đồng.

Nội dung bài viết

Tác giả

Khóa học

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

Crawl data từ website howkteam với Regex và Http Client trên C# WPF

Đánh giá

Bình luận

Để bình luận, bạn cần đăng nhập bằng tài khoản Howkteam.

Đăng nhập
it fa đã bình luận 17:10 21-10-2018

e có thể thay  httpClient.GetStringAsync(url).Result; bằng driver.pageSource của seletium thì có khác gì k nhỉ. vì e thấy 1 số trang get string bằng httpclient k được (vd:facebook.com)

Ajack Ti đã bình luận 22:19 06-05-2018

Hình như anh tháo cái thẻ ul li danh sách bài học rồi thì phải -_-

Em thử regex mấy cái bài học này thì không lấy được danh sách bài học(mất thẻ div id="sub-menu")???

Mong được câu trả lời =))

alathuan2 đã bình luận 00:11 13-10-2017

cảm ơn ADmin rất nhiều

selecao_111 đã bình luận 22:36 01-08-2017

Cày mệt quá hic, ai giúp m với :)

Khánh Nguyễn đã bình luận 16:13 09-06-2017

dòng 123:                 string courseName = Regex.Match(course.ToString(), @"(?=<h2>).*?(?=</h2>)").Value.Replace("<h2>","");

trong bài của anh là h5, nhưng khi lấy về lại là h2....vậy cái sourse do anh đổi hay trang web tự updates vậy...thế khi làm tool thì trang mà update là tool hết dùng đc hả a? có cách nào khắc phục đc ko ạ...em cảm ơn!

Không có video.