[C#/COMMON/HTMLAGILITYPACK/.NET8] HtmlDocument 클래스 : HTML 문자열에서 텍스트 추출하기

■ HtmlDocument 클래스를 사용해 HTML 문자열에서 텍스트를 추출하는 방법을 보여준다.

▶ HTMLHelper.cs


using System;
using System.Linq;
using System.Text.RegularExpressions;

using HtmlAgilityPack;

/// <summary>
/// HTML 헬퍼
/// </summary>
public class HTMLHelper
{
    //////////////////////////////////////////////////////////////////////////////////////////////////// Method
    ////////////////////////////////////////////////////////////////////////////////////////// Static
    //////////////////////////////////////////////////////////////////////////////// Public

    #region 텍스트 추출하기 - ExtractText(html)

    /// <summary>
    /// 텍스트 추출하기
    /// </summary>
    /// <param name="html">HTML</param>
    /// <returns>텍스트</returns>
    public static string ExtractText(string html)
    {
        HtmlDocument htmlDocument = new HtmlDocument();

        htmlDocument.LoadHtml(html);

        return htmlDocument.DocumentNode.InnerText;
    }

    #endregion
    #region 문자열 정규화하기 - NormalizeString(sourceString)

    /// <summary>
    /// 문자열 정규화하기
    /// </summary>
    /// <param name="sourceString">소스 문자열</param>
    /// <returns>정규화 문자열</returns>
    /// <remarks>
    /// 1. 각 줄의 문자열의 앞뒤 공백을 제거한다.
    /// 2. 빈줄이 반복되는 경우 1개의 빈줄로 만든다.
    /// </remarks>
    public static string NormalizeString(string sourceString)
    {
        string[] sourceLineArray = sourceString.Split(new[] { "\r\n", "\r", "\n" }, StringSplitOptions.None);

        string[] targetLineArray = sourceLineArray.Select(line => line.Trim()).ToArray();

        string joinedString = string.Join(Environment.NewLine, targetLineArray);

        string targetString = Regex.Replace(joinedString, @"(\r\n|\n){2,}", Environment.NewLine + Environment.NewLine);

        return targetString;
    }

    #endregion
}

using System;

using System.Linq;

using System.Text.RegularExpressions;

using HtmlAgilityPack;

/// <summary>

/// HTML 헬퍼

/// </summary>

public class HTMLHelper

{

//////////////////////////////////////////////////////////////////////////////////////////////////// Method

////////////////////////////////////////////////////////////////////////////////////////// Static

//////////////////////////////////////////////////////////////////////////////// Public

#region 텍스트 추출하기 - ExtractText(html)

/// <summary>

/// 텍스트 추출하기

/// </summary>

/// <param name="html">HTML</param>

/// <returns>텍스트</returns>

public static string ExtractText(string html)

{

HtmlDocument htmlDocument = new HtmlDocument();

htmlDocument.LoadHtml(html);

return htmlDocument.DocumentNode.InnerText;

}

#endregion

#region 문자열 정규화하기 - NormalizeString(sourceString)

/// <summary>

/// 문자열 정규화하기

/// </summary>

/// <param name="sourceString">소스 문자열</param>

/// <returns>정규화 문자열</returns>

/// <remarks>

/// 1. 각 줄의 문자열의 앞뒤 공백을 제거한다.

/// 2. 빈줄이 반복되는 경우 1개의 빈줄로 만든다.

/// </remarks>

public static string NormalizeString(string sourceString)

{

string[] sourceLineArray = sourceString.Split(new[] { "\r\n", "\r", "\n" }, StringSplitOptions.None);

string[] targetLineArray = sourceLineArray.Select(line => line.Trim()).ToArray();

string joinedString = string.Join(Environment.NewLine, targetLineArray);

string targetString = Regex.Replace(joinedString, @"(\r\n|\n){2,}", Environment.NewLine + Environment.NewLine);

return targetString;

}

#endregion

}

※ HtmlAgilityPack 누겟 패키지를 설치한다.

Post Views: 1

.NET8 C# COMMON HTML HTMLAGILITYPACK NETWORK

icodebroker

[C#/COMMON/HTMLAGILITYPACK/.NET8] HtmlDocument 클래스 : HTML 문자열에서 텍스트 추출하기

분류

보관함