Show Menu
화제×

크롤링 메뉴 정보

크롤링 메뉴 세트 날짜 및 URL 마스크, 암호, 컨텐츠 유형, 연결, 양식 정의 및 URL 시작 지점을 사용합니다.

URL 시작 지점 정보

대부분의 웹 사이트에는 고객이 처음 방문하는 하나의 기본 시작 지점 또는 홈 페이지가 있습니다. 이 기본 시작 지점은 검색 로봇이 색인 크롤링을 시작하는 URL 주소입니다. 그러나 웹 사이트에 도메인 또는 하위 도메인이 여러 개 있거나 사이트의 일부가 기본 시작 지점에서 연결되지 않은 경우 URL 시작 지점을 사용하여 더 많은 시작 지점을 추가할 수 있습니다.
지정된 각 URL 진입점 아래의 모든 웹 사이트 페이지는 인덱싱됩니다. URL 시작 지점과 마스크를 결합하여 인덱스화하려는 웹 사이트의 부분을 정확하게 제어할 수 있습니다. 고객이 URL 시작 지점 설정의 효과를 볼 수 있으려면 먼저 웹 사이트 색인을 다시 구성해야 합니다.
기본 시작 지점은 일반적으로 색인화 및 검색할 웹 사이트의 URL입니다. 계정 설정에서 이 기본 진입점을 구성합니다.
계정 설정 구성을 참조하십시오.
기본 URL 시작 지점을 지정한 후 선택적으로 순서대로 크롤할 추가 시작 지점을 지정할 수 있습니다. 대부분의 경우 기본 시작 지점 아래에 있는 페이지에서 링크되지 않은 웹 페이지의 추가 시작 지점을 지정합니다. 다음 예와 같이 웹 사이트가 두 개 이상의 도메인에 걸쳐 있을 때 추가 시작 지점을 지정합니다.
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
아래 표에서 하나 이상의 공백으로 구분된 키워드로 각 진입점을 평가할 수 있습니다. 이러한 키워드는 페이지의 인덱스 방식에 영향을 줍니다.
중요 :주어진 키워드는 시작 지점과 공백으로 구분해야 합니다.쉼표는 올바른 구분 기호가 아닙니다.
키워드
설명
noindex
시작 지점 페이지에서 텍스트를 색인화하지 않고 페이지의 링크를 따르려면 noindex 를 클릭합니다.
다음 예제와 같이 키워드를 시작 지점과 공백으로 구분합니다.
https://www.my-additional-domain.com/more_pages/main.html noindex
이 키워드는 content="noindex" ) between the <head> ... </head> 태그입니다.
nofollow
시작 지점 페이지에서 텍스트를 색인화하지만 페이지의 링크를 따르지 않으려면 nofollow 를 클릭합니다.
다음 예제와 같이 키워드를 시작 지점과 공백으로 구분합니다.
https://www.domain.com/not_linked/directory_listing&nbsp;nofollow
이 키워드는 content="nofollow" 사이 <head> ... </head> 태그입니다.
양식
시작 지점이 로그인 페이지인 경우, 양식 는 일반적으로 검색 로봇이 웹 사이트를 크롤링 전에 로그인 양식을 제출하고 적절한 쿠키를 수신할 수 있도록 사용됩니다. "form" 키워드를 사용하면 진입점 페이지가 인덱싱되지 않고 검색 로봇이 진입점 페이지를 크롤링으로 표시하지 않습니다. 최상의 결과를 얻으려면 nofollow 검색 로봇이 페이지의 링크를 따르지 않게 하려면

인덱싱할 여러 URL 진입점 추가

웹 사이트에 여러 도메인 또는 하위 도메인이 있고 크롤링 작업을 원하는 경우 URL 진입점을 사용하여 URL을 더 추가할 수 있습니다.
웹 사이트의 기본 URL 시작 지점을 설정하려면 계정 설정을 사용합니다.
계정 설정 구성을 참조하십시오.
인덱싱할 여러 URL 진입점을 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > URL Entrypoints ​을 클릭합니다.
  2. 페이지의 URL Entrypoints 필드에 Entrypoints 라인당 하나의 URL 주소를 입력합니다.
  3. (선택 사항) Add Index Connector Configurations 드롭다운 목록에서 색인화를 위한 시작 지점으로 추가할 색인 커넥터를 선택합니다.
    드롭다운 목록은 이전에 하나 이상의 색인 커넥터 정의를 추가한 경우에만 사용할 수 있습니다.
    색인 커넥터 정의 추가를 참조하십시오.
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

URL 마스크 정보

URL 마스크는 검색 로봇이 색인화하거나 색인화하지 않는 웹 사이트 문서 중 어느 것을 결정하는 패턴입니다.
URL 마스크의 결과가 고객에게 표시되도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
다음은 사용할 수 있는 두 가지 유형의 URL 마스크입니다.
  • URL 마스크 포함
  • URL 마스크 제외
URL 마스크 포함: 검색 로봇이 마스크의 패턴과 일치하는 모든 문서를 색인화하도록 합니다.
URL 제외 마스크는 검색 로봇이 일치하는 문서를 색인화하도록 합니다.
검색 로봇이 링크에서 웹 사이트를 통해 이동할 때 URL이 발견되고 해당 URL과 일치하는 마스크를 찾습니다. 첫 번째 일치에서는 해당 URL을 인덱스에서 포함할지 또는 제외할지를 결정합니다. 발견된 URL과 일치하는 마스크가 없으면 해당 URL이 인덱스에서 무시됩니다.
진입점 URL에 대한 URL 마스크를 포함시키면 자동으로 생성됩니다. 이러한 동작을 통해 웹 사이트에서 발생한 모든 문서가 인덱싱됩니다. 또한 웹 사이트를 떠나는 링크가 포함되어 있지 않습니다. 예를 들어, 인덱스된 페이지가 https://www.yahoo.com에 링크되는 경우 검색 로봇은 진입점 URL에 의해 자동으로 생성된 포함 마스크와 일치하지 않으므로 해당 URL을 색인화하지 않습니다.
지정하는 각 URL 마스크는 별도의 줄에 있어야 합니다.
마스크는 다음 중 하나를 지정할 수 있습니다.
  • 전체 경로(예: 전체 경로) https://www.mydomain.com/products.html .
  • 의 부분 경로 https://www.mydomain.com/products .
  • 와일드카드를 사용하는 URL입니다. https://www.mydomain.com/*.html
  • 정규 표현식(고급 사용자용).
    마스크를 정규 표현식으로 만들려면 마스크 유형( regexp 또는 exclude include )과 URL 마스크 사이에 키워드를 삽입합니다.
다음은 간단한 제외 URL 마스크 예입니다.
exclude https://www.mydomain.com/photos

이 예제는 제외 URL 마스크이므로 패턴과 일치하는 모든 문서는 색인화되지 않습니다. 패턴은 파일과 폴더 모두 발견된 모든 항목과 일치하므로 https://www.mydomain.com/photos.html https://www.mydomain.com/photos/index.html 이 두 항목 모두 제외 URL과 일치하는 항목이 인덱싱되지 않습니다. 다음 예와 같이 /photos/ 폴더의 파일만 일치시키려면 URL 마스크에 후행 슬래시가 포함되어야 합니다.
exclude https://www.mydomain.com/photos/

다음 제외 마스크 예제에서는 와일드카드를 사용합니다. 검색 로봇에게 확장자가 ".pdf"인 파일을 간과하도록 알려줍니다. 검색 로봇은 이러한 파일을 인덱스에 추가하지 않습니다.
exclude *.pdf

간단한 URL 포함 마스크는 다음과 같습니다.
include https://www.mydomain.com/news/

URL 진입점에서 일련의 링크를 통해 연결되거나 URL 진입점으로 사용되는 문서만 인덱싱됩니다. 문서의 URL을 포함 URL 마스크로만 나열해도 연결되지 않은 문서는 색인이 되지 않습니다. 연결되지 않은 문서를 인덱스에 추가하려면 URL 시작 지점 기능을 사용할 수 있습니다.
마스크 포함 및 마스크 제외는 함께 사용할 수 있습니다. 제외 URL 마스크를 만들고 포함 URL 마스크가 있는 제외되는 하나 이상의 페이지를 포함하여 웹 사이트의 큰 부분을 인덱스에서 제외할 수 있습니다. 예를 들어, 시작 지점 URL이 다음과 같다고 가정합니다.
https://www.mydomain.com/photos/

검색 로봇은 아래의 모든 페이지를 크롤링 및 인덱싱하고 /photos/summer/``/photos/spring/ 각 디렉토리에서 /photos/fall/ 하나 이상의 페이지에 대한 링크가 있다고 가정할 때 photos 해당 이 동작은 링크 경로를 통해 검색 로봇이 시작 지점 URL에 의해 자동으로 생성되는 포함 마스크와 폴더 및 폴더 URL /summer/ 의 문서를 찾을 수 있게 하기 때문에 /spring/``/fall/ 발생합니다.
다음 예와 같이 제외 URL 마스크가 있는 /fall/ 폴더의 모든 페이지를 제외하도록 선택할 수 있습니다.
exclude https://www.mydomain.com/photos/fall/

또는 다음 URL 마스크가 있는 색인의 /photos/fall/redleaves4.html 일부로만 선택적으로 포함할 수 있습니다.
include https://www.mydomain.com/photos/fall/redleaves4.html

위의 두 마스크 예제가 제대로 작동하려면 다음과 같이 포함 마스크가 먼저 나열됩니다.
include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

검색 로봇은 나열된 순서대로 방향을 따르기 때문에 먼저 검색 로봇이 /photos/fall/redleaves4.html 포함시킨 다음 나머지 파일을 /fall 폴더에 제외합니다.
지침을 다음과 같이 반대로 지정한 경우:
exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

마스크가 포함되도록 /photos/fall/redleaves4.html 지정하더라도 포함되지 않습니다.
먼저 나타나는 URL 마스크가 항상 마스크 설정의 뒤에 표시되는 URL 마스크보다 우선합니다. 또한 검색 로봇이 포함 URL 마스크와 제외 URL 마스크와 일치하는 페이지가 발견되면 먼저 나열된 마스크가 항상 우선합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.

URL 마스크와 함께 키워드 사용 정보

하나 이상의 공백으로 구분된 키워드로 각 포함 마스크를 평가할 수 있으므로 일치하는 페이지가 인덱싱되는 방식에 영향을 줍니다.
쉼표는 마스크와 키워드 사이의 구분 문자로 사용할 수 없습니다.공백만 사용할 수 있습니다.
키워드
설명
noindex
URL 마스크와 일치하는 페이지의 텍스트를 색인화하지 않고 일치된 페이지 링크를 따르려면 noindex URL 포함 마스크 후. 다음 예와 같이 키워드와 마스크를 공백으로 구분해야 합니다.
include&nbsp;*.swf&nbsp;noindex
위의 예에서는 검색 로봇이 .swf 확장자를 지정하지만 해당 파일에 포함된 모든 텍스트의 인덱싱을 비활성화합니다.
The noindex 키워드는 content="noindex" 사이 <head>...</head> 태그가 일치했습니다.
nofollow
URL 마스크와 일치하는 페이지의 텍스트를 색인화하지만 일치하는 페이지의 링크를 따르지 않으려면 nofollow URL 포함 마스크 후. 다음 예와 같이 키워드와 마스크를 공백으로 구분해야 합니다.
include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
The nofollow 키워드는 content="nofollow" 사이 <head>...</head> 태그가 일치했습니다.
regexp
포함 및 제외 마스크 모두에 사용됩니다.
앞에 있는 모든 URL 마스크 regexp 은 정규 표현식으로 취급됩니다. 검색 로봇이 제외 정규 표현식 URL 마스크와 일치하는 문서를 발견하면 해당 문서가 인덱스되지 않습니다. 검색 로봇이 정규 표현식 URL 마스크와 일치하는 문서를 발견하면 해당 문서가 인덱싱됩니다. 예를 들어 다음과 같은 URL 마스크가 있다고 가정합니다.
exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$
검색 로봇은 https://www.mydomain.com/products/page1.html
다음 제외 정규 표현식 URL 마스크가 있는 경우:
exclude&nbsp;regexp&nbsp;^.*\?..*$
검색 로봇은 https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .
정규 표현식 URL 마스크가 포함되는 경우:
include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex
검색 로봇은 확장자가 ".swf"인 파일의 모든 링크를 따릅니다. The noindex 키워드는 일치하는 파일의 텍스트가 인덱싱되지 않도록 지정합니다.

웹 사이트의 인덱스 부분에 URL 마스크 추가

를 URL Masks 사용하여 크롤링 및 인덱싱할 웹 사이트의 일부를 정의할 수 있습니다.
# 필드를 사용하여 색인 후에 문서가 포함되어 있는지 여부를 테스트합니다.
URL 마스크의 결과가 고객에게 표시되도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
웹 사이트의 일부분을 색인화하거나 색인화하지 않도록 URL 마스크를 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > URL Masks ​을 클릭합니다.
  2. (선택 사항) URL Masks 페이지의 Test URL Masks 필드에 웹 사이트의 테스트 URL 마스크를 입력한 다음 을 클릭합니다 Test .
  3. 필드에 URL Masks (크롤링 및 인덱싱할 웹 사이트를 추가하려면) include exclude 또는 (웹 사이트가 크롤링 및 인덱싱되지 않도록 차단하려면) URL 마스크 주소를 입력합니다.
    한 줄에 하나의 URL 마스크 주소를 입력합니다. 예:
    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
    
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

날짜 마스크 정보

날짜 마스크를 사용하여 파일 기간을 기반으로 검색 결과에서 파일을 포함하거나 제외할 수 있습니다.
URL 마스크의 결과가 고객에게 표시되도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
다음은 사용할 수 있는 두 가지 유형의 날짜 마스크입니다.
  • 날짜 마스크 포함("include-days" 및 "include-date")
    지정된 날짜 또는 그 이전에 날짜가 지정된 날짜 마스크 인덱스 파일을 포함합니다.
  • 날짜 마스크 제외("exclude-days" 및 "exclude-date")
    날짜 마스크 인덱스 파일을 제외합니다.
기본적으로 파일 날짜는 메타 태그 정보로 결정됩니다. 메타 태그를 찾을 수 없으면 검색 로봇이 파일을 다운로드할 때 서버로부터 받은 HTTP 헤더에서 파일 날짜가 결정됩니다.
지정한 각 날짜 마스크는 별도의 줄에 있어야 합니다.
마스크는 다음 중 하나를 지정할 수 있습니다.
  • 전체 경로 https://www.mydomain.com/products.html
  • 부분 경로 https://www.mydomain.com/products
  • 와일드카드를 사용하는 URL https://www.mydomain.com/*.html
  • 정규 표현식입니다. 마스크를 정규 표현식으로 만들려면 URL regexp 앞에 키워드를 삽입합니다.
날짜 마스크 포함 및 제외 모두 다음 두 가지 방법 중 하나로 날짜를 지정할 수 있습니다. 마스크는 지정된 날짜 또는 그 이전에 일치하는 파일을 만든 경우에만 적용됩니다.
  1. 일 수. 예를 들어 날짜 마스크가 다음과 같다고 가정합니다.
    exclude-days 30 https://www.mydomain.com/docs/archive/)
    
    
    지정된 일 수가 다시 계산됩니다. 파일이 도착 날짜 또는 이전 날짜인 경우 마스크가 적용됩니다.
  2. YYYY-MM-DD 형식을 사용하는 실제 날짜입니다. 예를 들어 날짜 마스크가 다음과 같다고 가정합니다.
    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    
    
    일치하는 문서의 날짜가 지정된 날짜 이전이면 날짜 마스크가 적용됩니다.
다음은 간단한 제외 날짜 마스크 예입니다.
exclude-days 90 https://www.mydomain.com/docs/archive

이 마스크는 제외 날짜 마스크이므로 패턴과 일치하는 모든 파일은 색인화되지 않고 90일 이전 버전입니다. 문서를 제외하는 경우 텍스트가 인덱싱되지 않고 해당 파일에서 링크가 따라오지 않습니다. 파일이 효과적으로 무시됩니다. 이 예에서는 파일과 폴더가 모두 지정된 URL 패턴과 일치할 수 있습니다. 패턴과 https://www.mydomain.com/docs/archive.html https://www.mydomain.com/docs/archive/index.html 일치하고 90일 이상 된 경우 색인이 되지 않습니다. 폴더의 파일만 일치시키려면 날짜 마스크에 다음과 같이 후행 슬래시가 포함되어야 합니다. /docs/archive/
exclude-days 90 https://www.mydomain.com/docs/archive/

날짜 마스크는 와일드카드와 함께 사용할 수도 있습니다. 다음 제외 마스크는 검색 로봇에게 2011-02-15 이전 또는 2011-02-15에 날짜가 지정된 ".pdf" 확장자를 가진 파일을 간과하도록 지시합니다. 검색 로봇은 색인에 일치하는 파일을 추가하지 않습니다.
exclude-date 2011-02-15 *.pdf

날짜 마스크 포함 모습은 유사하며 일치하는 파일만 색인에 추가됩니다. 다음 날짜 마스크 포함 예는 검색 로봇에 웹 사이트 /docs/archive/manual/ 영역에서 제로 일 또는 이전 버전의 모든 파일에서 텍스트를 색인화하도록 지시합니다.
include-days 0 https://www.mydomain.com/docs/archive/manual/

마스크 포함 및 마스크 제외는 함께 사용할 수 있습니다. 예를 들어 제외 날짜 마스크를 만들고 포함 URL 마스크가 있는 제외된 하나 이상의 페이지를 포함시켜 웹 사이트의 큰 부분을 인덱스에서 제외할 수 있습니다. 시작 지점 URL이 다음과 같은 경우:
https://www.mydomain.com/archive/

검색 로봇은 /archive/summer/ /archive/spring/ 폴더의 모든 페이지를 크롤링 및 인덱싱합니다( /archive/fall/ archive 폴더에서 각 폴더에 하나 이상의 페이지에 대한 링크가 있다고 가정하는 경우). 이 동작은 링크 경로를 통해 검색 로봇이 /summer/ , /spring/ /fall/ 폴더의 파일을 "찾기"할 수 있고 폴더 URL이 진입점 URL에 의해 자동으로 생성된 포함 마스크와 일치하기 때문에 발생합니다.
계정 설정 구성을 참조하십시오.
다음과 같이 제외 날짜 마스크가 있는 /fall/ 폴더에서 90일이 지난 모든 페이지를 제외하도록 선택할 수 있습니다.
exclude-days 90 https://www.mydomain.com/archive/fall/

다음 날짜 마스크가 있는 인덱스의 일부로(얼마나 오래 되었는지 /archive/fall/index.html 상관없이, 모든 파일 0일 또는 이전 버전이 일치하는지 여부)만 선택적으로 포함할 수 있습니다.
include-days 0 https://www.mydomain.com/archive/fall/index.html

위의 두 개의 마스크 예제가 제대로 작동하려면 다음과 같이 포함 마스크를 먼저 나열해야 합니다.
include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

검색 로봇은 지정된 순서대로 방향을 따르기 때문에 먼저 검색 로봇이 /archive/fall/index.html 포함시킨 다음 /fall 폴더의 나머지 파일을 제외합니다.
지침을 다음과 같이 반대로 지정한 경우:
exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

마스크가 /archive/fall/index.html 포함되도록 지정하더라도 포함되지 않습니다. 먼저 나타나는 날짜 마스크가 항상 마스크 설정의 뒤에 나타날 수 있는 날짜 마스크보다 우선합니다. 또한 검색 로봇이 포함 날짜 마스크와 제외 날짜 마스크와 일치하는 페이지를 만나면 맨 먼저 나열된 마스크가 우선합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.

날짜 마스크와 함께 키워드 사용 정보

하나 이상의 공백으로 구분된 키워드로 각 포함 마스크를 평가할 수 있으므로 일치하는 페이지가 인덱싱되는 방식에 영향을 줍니다.
쉼표는 마스크와 키워드 사이의 구분 문자로 사용할 수 없습니다.공백만 사용할 수 있습니다.
키워드
설명
noindex
포함 마스크로 지정된 날짜 또는 그 이전에 날짜가 지정된 페이지의 텍스트를 색인화하지 않으려면 noindex 날짜 마스크 포함 후:
include-days&nbsp;10&nbsp;*.swf&nbsp;noindex
키워드와 마스크를 공백으로 구분해야 합니다.
위의 예제에서는 검색 로봇이 10일 이상의 ".swf" 확장자를 사용하여 파일의 모든 링크를 따르도록 지정합니다. 그러나 이러한 파일에 포함된 모든 텍스트의 인덱싱을 비활성화합니다.
이전 파일에 대한 텍스트가 색인이 되어 있지 않고 해당 파일의 모든 링크를 따라가도록 할 수 있습니다. 이러한 경우 제외 날짜 마스크를 사용하는 대신 "noindex" 키워드와 함께 포함 날짜 마스크를 사용합니다.
nofollow
포함 마스크에 의해 지정된 날짜 또는 그 이전에 날짜가 지정된 페이지의 텍스트를 색인화하고자 하지만 일치하는 페이지의 링크를 따르지 않으려면 nofollow 날짜 마스크 포함 후:
include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
키워드와 마스크를 공백으로 구분해야 합니다.
The nofollow 키워드는 content="nofollow" 사이 <head>...</head> 태그가 일치했습니다.
server-date
포함 및 제외 마스크 모두에 사용됩니다.
검색 로봇은 일반적으로 날짜 마스크를 확인하기 전에 모든 파일을 다운로드하고 구문 분석합니다. 이러한 동작은 일부 파일 형식에서 파일 자체 내의 날짜를 지정할 수 있기 때문에 발생합니다. 예를 들어 HTML 문서에는 파일의 날짜를 설정하는 메타 태그가 포함될 수 있습니다.
날짜를 기준으로 많은 파일을 제외하려는 경우 서버에 불필요한 로드를 넣지 않으려면 server-date 을 클릭합니다.
이 키워드는 검색 로봇이 각 파일을 구문 분석하는 대신 서버에서 반환되는 파일의 날짜를 신뢰하도록 합니다. 예를 들어, 다음 제외 날짜 마스크는 문서가 90일 이상인 경우 HTTP 헤더에서 서버에서 반환되는 날짜에 따라 URL과 일치하는 페이지를 무시합니다.
exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date
서버에서 반환된 날짜가 90일 이상인 경우 server-date 에서 제외된 문서를 서버에서 다운로드하지 않도록 지정합니다. 그 결과 문서의 인덱싱 시간이 단축되고 서버에 로드가 줄어듭니다. If server-date 가 지정되지 않으면 검색 로봇은 HTTP 헤더에서 서버에서 반환되는 날짜를 무시합니다. 대신 각 파일이 다운로드되어 날짜가 지정되었는지 확인합니다. 파일에 날짜가 지정되지 않은 경우 검색 로봇은 서버에서 반환되는 날짜를 사용합니다.
사용 금지 server-date 파일에 서버 날짜를 재정의하는 명령이 포함되어 있는 경우
regexp
마스크 포함 및 제외 모두에 사용합니다.
앞에 오는 모든 날짜 마스크 regexp 은 정규 표현식으로 취급됩니다.
검색 로봇이 제외 정규 표현식 날짜 마스크와 일치하는 파일을 발견하면 해당 파일을 인덱싱하지 않습니다.
검색 로봇이 정규 표현식 날짜 마스크와 일치하는 파일을 발견하면 해당 문서를 인덱싱합니다.
예를 들어 다음과 같은 날짜 마스크가 있다고 가정합니다.
exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*
마스크는 검색 로봇이 180일 이상의 일치하는 파일을 제외하도록 합니다. 즉, URL에 "archive"라는 단어가 들어 있는 파일입니다.

웹 사이트의 색인 부분에 날짜 마스크 추가 또는 색인 지정 안 함

날짜 마스크를 사용하여 파일 연령을 기준으로 고객 검색 결과에서 파일을 포함하거나 제외할 수 있습니다.
색인 다음에 파일이 포함되어 있는지 여부를 테스트하려면 Test Date Test URL 필드를 사용합니다.
URL 마스크의 결과가 고객에게 표시되도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
웹 사이트의 일부분을 색인화하거나 색인화하지 않고 날짜 마스크를 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > Date Masks ​을 클릭합니다.
  2. (선택 사항) Date Masks 페이지의 Test Date 필드에 YYYY-MM-DD 형식(예: 2011-07-25 ) 날짜를 입력합니다.필드에 웹 사이트의 URL 마스크를 Test URL 입력한 다음 을 클릭합니다 Test .
  3. 필드에 Date Masks 라인당 하나의 날짜 마스크 주소를 입력합니다.
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

암호 정보

HTTP 기본 인증을 통해 보호되는 웹 사이트 일부에 액세스하려면 암호를 하나 이상 추가할 수 있습니다.
고객이 암호 설정의 효과를 볼 수 있으려면 먼저 사이트 색인을 다시 구성해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
페이지에서 Passwords 한 줄에 각 암호를 입력합니다. 암호는 다음 예와 같이 URL 또는 영역, 사용자 이름 및 암호로 구성됩니다.
https://www.mydomain.com/ myname mypassword

위와 같이 URL 경로를 사용하는 대신 영역을 지정할 수도 있습니다.
올바른 영역을 확인하려면 브라우저로 암호로 보호된 웹 페이지를 열고 "네트워크 암호 입력" 대화 상자를 확인합니다.
이 경우 영역 이름은 "내 사이트 영역"입니다.
위의 영역 이름을 사용하면 암호가 다음과 같이 표시될 수 있습니다.
My Site Realm myusername mypassword

웹 사이트에 여러 영역이 있는 경우 다음 예와 같이 별도의 행에 각 영역에 대한 사용자 이름과 암호를 입력하여 여러 암호를 만들 수 있습니다.
Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

URL 또는 영역이 포함된 암호를 혼합하여 암호 목록이 다음과 같이 보이도록 할 수 있습니다.
Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

위의 목록에서 서버의 인증 요청과 일치하는 영역 또는 URL을 포함하는 첫 번째 암호가 사용됩니다. 에 있는 파일이 https://www.mysite.com/path1/path2/index.html 있는 Realm3 경우라도, 예를 들어, URL로 정의된 암호가 name2 영역에 정의된 암호 위에 나열되기 때문에 password2 이 파일이 사용됩니다.

인증이 필요한 웹 사이트의 영역에 액세스하기 위한 암호 추가

암호를 사용하여 크롤링 및 색인 작업을 위해 웹 사이트의 암호로 보호된 영역에 액세스할 수 있습니다.
암호가 추가되어 고객에게 표시되기 전에 사이트 색인을 다시 빌드해야 합니다
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
인증이 필요한 웹 사이트의 영역에 액세스하기 위한 암호를 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > Passwords ​을 클릭합니다.
  2. 페이지의 Passwords 필드에 Passwords 영역 또는 URL과 관련된 사용자 이름 및 암호를 공백으로 구분하여 입력합니다.
    영역 암호 및 개별 줄의 URL 암호 예:
    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    
    
    한 줄에 하나의 암호만 추가합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

컨텐츠 유형 정보

이 계정에 대해 크롤링 및 색인화할 파일 유형을 선택하는 Content Types 데 사용할 수 있습니다.
크롤링 및 색인을 위해 선택할 수 있는 컨텐츠 유형에는 PDF 문서, 텍스트 문서, Adobe Flash 동영상, Word, Excel 및 Powerpoint와 같은 Microsoft Office 애플리케이션의 파일, MP3 파일의 텍스트가 포함됩니다. 선택한 컨텐츠 유형 내에서 발견되는 텍스트는 웹 사이트의 다른 모든 텍스트와 함께 검색됩니다.
고객이 컨텐츠 유형 설정의 효과를 볼 수 있으려면 먼저 사이트 인덱스를 다시 구성해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.

MP3 음악 파일 인덱싱 정보

페이지에서 옵션을 선택하면 MP3 파일이 Text in MP3 Music Files Content Types 다음 두 가지 방법 중 하나로 크롤링 및 인덱싱됩니다. 가장 일반적인 첫 번째 방법은 다음과 같이 HTML 파일의 앵커 href 태그에서 온 것입니다.
<a href="MP3-file-URL"></a>

두 번째 방법은 MP3 파일의 URL을 URL 진입점으로 입력하는 것입니다.
MP3 파일은 MIME 유형 "audio/mpeg"로 인식됩니다.
MP3 음악 파일 크기는 일반적으로 적은 양의 텍스트만 포함하더라도 꽤 클 수 있습니다. 예를 들어 MP3 파일은 앨범 이름, 아티스트 이름, 노래 제목, 노래 장르, 릴리스 연도 및 주석과 같은 내용을 선택적으로 저장할 수 있습니다. 이 정보는 파일의 맨 끝에 TAG라는 이름으로 저장됩니다. TAG 정보가 들어 있는 MP3 파일은 다음과 같이 인덱싱됩니다.
  • 노래 제목은 HTML 페이지의 제목처럼 처리됩니다.
  • 주석은 HTML 페이지에 대해 정의된 설명처럼 처리됩니다.
  • 장르는 HTML 페이지에 대해 정의된 키워드로 처리됩니다.
  • 아티스트 이름, 앨범 이름 및 릴리스 연도는 HTML 페이지의 본문처럼 처리됩니다.
웹 사이트에서 크롤링 및 인덱싱된 각 MP3 파일은 하나의 페이지로 계산됩니다.
웹 사이트에 많은 대용량 MP3 파일이 포함되어 있는 경우 계정에 대한 인덱싱 바이트 제한을 초과할 수 있습니다. 이러한 경우 Text in MP3 Music Files Content Types 페이지에서 선택을 취소하여 웹 사이트에 있는 모든 MP3 파일의 인덱싱을 방지할 수 있습니다.
웹 사이트에서 특정 MP3 파일의 인덱싱을 방지하려는 경우 다음 중 하나를 수행할 수 있습니다.
  • MP3 파일에 연결된 앵커 태그를 <nofollow> </nofollow> 태그로 둘러싸십시오. 검색 로봇은 이러한 태그 사이의 링크를 따르지 않습니다.
  • MP3 파일의 URL을 제외 마스크로 추가합니다.

크롤링 및 색인화할 컨텐츠 유형 선택

이 계정에 대해 크롤링 및 색인화할 파일 유형을 선택하는 Content Types 데 사용할 수 있습니다.
크롤링 및 색인을 위해 선택할 수 있는 컨텐츠 유형에는 PDF 문서, 텍스트 문서, Adobe Flash 동영상, Word, Excel 및 Powerpoint와 같은 Microsoft Office 애플리케이션의 파일, MP3 파일의 텍스트가 포함됩니다. 선택한 컨텐츠 유형 내에서 발견되는 텍스트는 웹 사이트의 다른 모든 텍스트와 함께 검색됩니다.
고객이 컨텐츠 유형 설정의 효과를 볼 수 있으려면 먼저 사이트 인덱스를 다시 구성해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
중국어, 일본어 또는 한국어 MP3 파일을 크롤링 및 색인하려면 아래 단계를 완료하십시오. 그런 다음 Settings > Metadata > Injections ​에서 MP3 파일을 인코딩하는 데 사용되는 문자 집합을 지정합니다.
크롤링 및 색인화할 컨텐츠 유형을 선택하려면
  1. 제품 메뉴에서 > Settings > Crawling > Content Types ​을 클릭합니다.
  2. 페이지에서 Content Types 웹 사이트에서 크롤링 및 색인화할 파일 유형을 확인합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

연결 정보

연결을 사용하여 검색 로봇이 웹 사이트를 색인화하는 데 사용하는 HTTP 연결을 최대 10개까지 추가할 수 있습니다.
연결 수를 늘리면 크롤링 및 색인을 완료하는 데 소요되는 시간을 크게 줄일 수 있습니다. 그러나 각 추가 연결은 서버의 로드를 증가시킵니다.

색인 속도를 높이기 위해 연결 추가

연결을 사용하여 Crawler가 사용하는 동시 HTTP 연결 수를 늘려 웹 사이트를 색인화하는 데 걸리는 시간을 줄일 수 있습니다. 최대 10개의 연결을 추가할 수 있습니다.
각 추가 연결은 서버에 배치된 로드를 증가시킵니다.
색인 속도를 높이기 위해 연결을 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > Connections ​을 클릭합니다.
  2. 페이지의 Parallel Indexing Connections Number of Connections 필드에 추가할 연결 수(1-10)를 입력합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

양식 제출 정보

양식 제출을 사용하면 웹 사이트에서 양식을 인식하고 처리할 수 있습니다.
웹 사이트의 크롤링 및 색인 작성 동안 발견된 각 양식과 추가한 양식 정의가 비교됩니다. 양식이 양식 정의와 일치하는 경우, 색인화를 위해 양식이 제출됩니다. 양식은 두 개 이상의 정의와 일치하는 경우 일치하는 각 정의에 대해 한 번 제출됩니다.

웹 사이트에서 양식 색인화를 위한 양식 정의 추가

색인 작성 목적으로 웹 사이트에서 인식되는 양식을 처리하는 Form Submission 데 사용할 수 있습니다.
고객이 변경 결과를 볼 수 있도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
웹 사이트에서 양식을 인덱싱하기 위한 양식 정의를 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > Form Submission ​을 클릭합니다.
  2. 페이지에서 Form Submission 을 클릭합니다 Add New Form .
  3. 페이지에서 Add Form Definition 및 Form Recognition Form Submission 옵션을 설정합니다.
    페이지의 Form Recognition 섹션에 있는 5가지 옵션은 Form Definition 처리할 수 있는 웹 페이지에서 양식을 식별하는 데 사용됩니다.
    섹션의 세 가지 옵션은 Form Submission 양식과 함께 웹 서버에 제출되는 매개 변수와 값을 지정하는 데 사용됩니다.
    라인당 하나의 인식 또는 제출 매개 변수를 입력합니다. 각 매개 변수에는 이름과 값이 포함되어야 합니다.
    옵션
    설명
    양식 인식
    페이지 URL 마스크
    양식이 포함된 웹 페이지 또는 페이지를 식별합니다. 단일 페이지에 나타나는 양식을 식별하려면 다음 예와 같이 해당 페이지에 대한 URL을 입력합니다.
    https://www.mydomain.com/login.html
    여러 페이지에 표시되는 양식을 식별하려면 와일드카드를 사용하여 페이지를 설명하는 URL 마스크를 지정합니다. 예를 들어 아래의 ASP 페이지에서 발견된 양식을 식별하려면 다음을 https://www.mydomain.com/register/ 지정합니다.
    https://www.mydomain.com/register/*.asp&nbsp;
    정규 표현식을 사용하여 여러 페이지를 식별할 수도 있습니다. Just specify the regexp 다음 예와 같이 URL 마스크 앞에 있는 키워드:
    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$
    작업 URL 마스크
    의 작업 속성을 식별합니다. <form> 태그를 닫기 전에 mbox.js 파일 다음에 선언이 오는지 판별하십시오.
    페이지 URL 마스크와 마찬가지로 작업 URL 마스크는 단일 URL, 와일드카드가 있는 URL 또는 정규 표현식을 취할 수 있습니다.
    URL 마스크는 다음 중 하나일 수 있습니다.
    • 다음과 같은 전체 경로: https://www.mydomain.com/products.html
    • 다음과 같은 부분 경로: https://www.mydomain.com/products
    • 다음과 같이 와일드카드를 사용하는 URL: https://www.mydomain.com/*.html
    • 다음과 같은 정규 표현식 regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$
    URL 마스크나 작업 URL 마스크로 식별된 페이지의 텍스트를 색인화하지 않거나 이러한 페이지에서 링크를 따라가지 않으려면 noindex nofollow 키워드로 사용할 수 있습니다. URL 마스크 또는 시작 지점을 사용하여 이러한 키워드를 마스크에 추가할 수 있습니다.
    URL 시작 지점 정보를 참조하십시오.
    양식 이름 마스크
    양식을 <form> 웹 페이지의 태그에는 name 속성이 포함됩니다.
    간단한 이름( login_form ), 와일드카드( form* ) 또는 정규 표현식( regexp^.*인증.*$ .
    일반적으로 양식에는 이름 속성이 없으므로 이 필드를 비워 둘 수 있습니다.
    양식 ID 마스크
    양식을 <form> 웹 페이지의 태그에는 id 속성이 포함됩니다.
    간단한 이름( login_form ), 와일드카드( form* ) 또는 정규 표현식( regexp^.*인증.*$ .
    일반적으로 양식에는 이름 속성이 없으므로 이 필드를 비워 둘 수 있습니다.
    매개 변수
    이름이 지정된 매개 변수 또는 지정된 값이 있는 명명된 매개 변수를 포함하거나 포함하지 않는 양식을 식별합니다.
    예를 들어, rick_brough@mydomain.com에 사전 설정된 암호 매개 변수인 전자 메일 매개 변수가 포함된 양식을 식별하려면 한 줄에 하나씩, 다음 매개 변수 설정을 지정해야 합니다.
    email=rick_brough@mydomain.com password not first-name
    양식 제출
    작업 URL 재정의
    양식 제출의 대상이 양식의 작업 속성에 지정된 대상과 다를 때를 지정합니다.
    예를 들어 양식에 있는 것과 다른 URL 값을 구성하는 JavaScript 함수를 통해 양식을 제출할 때 이 옵션을 사용할 수 있습니다.
    메서드 재정의
    양식 제출의 대상이 양식의 action 속성에 사용되는 대상과 다른 시기와 JavaScript 제출을 통해 메서드를 변경한 시기를 지정합니다.
    모든 양식 매개 변수의 기본값( <input> 태그(숨김 필드 포함), <option> 에서 <선택> 태그 및 <textarea>...</textarea> 태그)는 웹 페이지에서 읽습니다. 그러나 양식 제출 섹션에 나열된 매개 변수는 매개 변수 필드에 있는양식 기본값으로 대체됩니다.
    매개 변수
    양식 제출 매개 변수에 없는 키워드.
    매개 변수에 없는 양식 제출의 일부로 제출되지 않습니다. 이 동작은 전송하지 않도록 해야 하는 확인란에 유용합니다.
    예를 들어 다음 매개 변수를 제출한다고 가정합니다.
    • 값이 있는 전자 메일 매개 변수 nobody@mydomain.com
    • 값이 있는 암호 매개 변수 시험판
    • mycheckbox 매개 변수를 선택 취소로 설정합니다.
    • 기타 모두 <form> 매개 변수를 기본값으로 설정
    양식 제출 매개 변수는 다음과 같습니다.
    email=nobody@mydomain.com password=tryme not mycheckbox
    The method attribute of the <form> 웹 페이지의 태그는 GET 메서드 또는 POST 메서드를 사용하여 데이터를 서버로 전송할지 여부를 결정하는 데 사용됩니다.
    첫 번째 날짜를 클릭한 채로 <form> 태그에 메서드 속성이 들어 있지 않으면 GET 메서드를 사용하여 양식이 제출됩니다.
  4. 클릭 Add .
  5. (선택 사항) 다음 중 하나를 수행합니다.

양식 정의 편집

웹 사이트의 양식이 변경되었거나 정의를 변경해야 하는 경우 기존 양식 정의를 편집할 수 있습니다.
양식 정의에 대한 변경 내용을 되돌리기 위한 기능이 History Form Submission 페이지에 없습니다.
고객이 변경 결과를 볼 수 있도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
양식 정의를 편집하려면
  1. 제품 메뉴에서 > Settings > Crawling > Form Submission ​을 클릭합니다.
  2. 페이지에서 업데이트할 Form Submission 양식 정의 Edit 오른쪽에 있는 을 클릭합니다.
  3. 페이지에서 Edit Form Definition 및 Form Recognition Form Submission 옵션을 설정합니다.
    웹 사이트에서 웹 사이트에서 양식 색인화를 위한 양식 정의 추가 양식 색인화에 대한 양식 정의 추가에 있는 옵션 표를 참조하십시오.
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.

양식 정의 삭제

양식이 웹 사이트에 더 이상 존재하지 않거나 특정 양식을 더 이상 처리 및 색인화하지 않으려는 경우 기존 양식 정의를 삭제할 수 있습니다.
양식 정의에 대한 변경 내용을 되돌리기 위한 기능이 History Form Submission 페이지에 없습니다.
고객이 변경 결과를 볼 수 있도록 사이트 인덱스를 다시 구축해야 합니다.
스테이지된 웹 사이트의 증분 인덱스 구성을 참조하십시오.
양식 정의를 삭제하려면
  1. 제품 메뉴에서 > Settings > Crawling > Form Submission ​을 클릭합니다.
  2. 페이지에서 Form Submission 제거할 양식 정의 Delete 오른쪽에 있는 을 클릭합니다.
    삭제할 올바른 양식 정의를 선택해야 합니다. 다음 단계에서 클릭하면 삭제 확인 대화 상자가 Delete 표시되지 않습니다.
  3. 페이지에서 Delete Form Definition 을 클릭합니다 Delete .
  4. (선택 사항) 다음 중 하나를 수행합니다.

색인 커넥터 정보

XML 페이지 또는 모든 종류의 피드를 인덱싱하기 위한 추가 입력 소스를 정의하는 Index Connector 데 사용합니다.
데이터 피드 입력 소스를 사용하면 사용 가능한 크롤링 방법 중 하나를 사용하여 웹 사이트에서 일반적으로 발견되는 내용과 다른 형태로 저장된 컨텐츠에 액세스할 수 있습니다. 크롤링 및 인덱싱된 각 문서는 웹 사이트의 컨텐츠 페이지에 바로 해당합니다. 그러나 데이터 피드는 XML 문서 또는 쉼표 또는 탭으로 구분된 텍스트 파일에서 오고, 색인화할 컨텐츠 정보를 포함합니다.
XML 데이터 소스는 개별 문서에 해당하는 정보를 포함하는 XML 표준 또는 레코드로 구성됩니다. 이러한 개별 문서는 색인에 추가됩니다. 텍스트 데이터 피드에는 개별 문서에 해당하는 새 행으로 구분된 개별 레코드가 포함됩니다. 이러한 개별 문서는 색인에 추가됩니다. 두 경우 모두 색인 커넥터 구성은 피드를 해석하는 방법을 설명합니다. 각 구성은 파일이 있는 위치와 서버가 파일에 액세스하는 방법에 대해 설명합니다. 이 구성에서는 "매핑" 정보도 설명합니다. 즉, 각 레코드의 항목이 결과 인덱스의 메타데이터 필드를 채우는 데 사용되는 방법입니다.
색인 커넥터 정의를 Staged Index Connector Definitions 페이지에 추가하면 이름 또는 유형 값을 제외한 모든 구성 설정을 변경할 수 있습니다.
이 Index Connector 페이지에는 다음 정보가 표시됩니다.
  • 구성 및 추가한 정의된 인덱스 커넥터의 이름입니다.
  • 추가한 각 커넥터에 대해 다음 데이터 소스 유형 중 하나:
    • 텍스트 - 간단한 "플랫" 파일, 쉼표로 구분된 파일, 탭으로 구분된 형식 또는 기타 일관되게 구분된 형식.
    • 피드 - XML 피드.
    • XML - XML 문서 모음.
  • 다음 크롤링 및 인덱싱을 위해 커넥터를 사용할지 여부를 나타냅니다.
  • 데이터 소스의 주소입니다.

색인 커넥터의 텍스트 및 피드 구성에 대해 색인 작성 프로세스가 작동하는 방식

단계
프로세스
설명
1
데이터 소스를 다운로드합니다.
텍스트 및 피드 구성의 경우 간단한 파일 다운로드입니다.
2
다운로드한 데이터 소스를 개별 의사 문서로 분류합니다.
텍스트의 경우 줄바꿈 문자로 구분된 각 텍스트 줄은 개별 문서에 해당하며 쉼표나 탭과 같은 지정된 구분 기호를 사용하여 구문 분석됩니다.
피드의 경우 각 문서의 데이터는 다음 양식의 정규 표현식 패턴을 사용하여 추출됩니다.
<${Itemtag}>(.*?)</${Itemtag}>
색인 커넥터 추가 페이지에서 맵을 사용하여 캐시된 데이터 복사본을 만든 다음 크롤러에 대한 링크 목록을 만듭니다. 데이터는 로컬 캐시에 저장되고 구성된 필드로 채워집니다.
파싱된 데이터는 로컬 캐시에 기록됩니다.
이 캐시는 나중에 읽어서 Crawler가 필요한 간단한 HTML 문서를 만듭니다. 예:
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
< title> 요소는 제목 메타데이터 필드에 매핑이 있을 때만 생성됩니다. 마찬가지로 <body> 요소는 매핑이 본문 메타데이터 필드에 존재하는 경우에만 생성됩니다.
중요 :사전 정의된 URL 메타 태그에 대한 값 할당은 지원되지 않습니다.
다른 모든 매핑의 경우 <meta> 태그가 원본 문서에서 찾은 데이터가 있는 각 필드에 대해 생성됩니다.
각 문서에 대한 필드가 캐시에 추가됩니다. 캐시에 기록된 각 문서에 대해 다음 예와 같이 링크가 생성됩니다.
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
구성의 매핑에는 기본 키로 식별된 필드가 하나 있어야 합니다. 이 매핑은 캐시에서 데이터를 가져올 때 사용되는 키를 형성합니다.
크롤러는 URL 인덱스를 인식합니다.스키마 접두사를 사용하여 로컬에 캐시된 데이터에 액세스할 수 있습니다.
3
캐시된 문서 집합을 크롤합니다.
색인: 링크가 크롤러의 보류 목록에 추가되고 일반 크롤링 시퀀스에서 처리됩니다.
4
각 문서를 처리합니다.
각 링크의 키 값은 캐시에 있는 항목에 해당되므로 각 링크를 크롤링하면 캐시에서 해당 문서의 데이터를 가져옵니다. 그런 다음 HTML 이미지로 "조합"되어 처리되고 색인에 추가됩니다.

색인 커넥터의 XML 구성에 대해 색인 작성 프로세스가 작동하는 방식

XML 구성의 인덱싱 프로세스는 다음과 같은 사소한 변경 사항 및 예외 사항이 있는 텍스트 및 피드 구성 프로세스와 유사합니다.
XML 크롤에 대한 문서는 이미 개별 파일로 분리되어 있으므로 위 표의 1단계와 2단계는 바로 적용되지 않습니다. 페이지의 Host Address File Path Index Connector Add 필드에 URL을 지정하면 URL이 다운로드되고 일반 HTML 문서로 처리됩니다. 다운로드 문서에는 처리되는 XML 문서를 가리키는 <a href="{url}"... 링크 컬렉션이 포함되어 있을 것으로 예상됩니다. 이러한 링크는 다음 양식으로 변환됩니다.
<a href="index:<ic_config_name>?url="{url}">

예를 들어 Adobe 설정에서 다음 링크를 반환한 경우
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

위의 표에서 3단계는 적용되지 않으며 4단계는 크롤링 및 색인 작성 시 완료됩니다.
또는 크롤링 프로세스를 통해 자연스럽게 발견된 다른 문서와 XML 문서를 혼합할 수 있습니다. 이러한 경우 다시 작성 규칙( Settings > Rewrite Rules > Crawl List Retrieve URL Rules )을 사용하여 XML 문서의 URL을 색인 커넥터로 변경할 수 있습니다.
예를 들어 다음과 같은 다시 작성 규칙이 있다고 가정합니다.
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

이 규칙은 색인 커넥터 링크로 끝나는 모든 URL을 .xml 변환합니다. 크롤러는 URL 체계를 인식하고 다시 index: 씁니다. 다운로드 프로세스는 마스터의 색인 커넥터 Apache 서버를 통해 리디렉션됩니다. 다운로드된 각 문서는 피드와 함께 사용되는 동일한 정규 표현식 패턴을 사용하여 검사됩니다. 그러나 이 경우 제작된 HTML 문서는 캐시에 저장되지 않습니다. 대신 색인 처리를 위해 크롤러에 직접 전달됩니다.

여러 인덱스 커넥터를 구성하는 방법

모든 계정에 대해 여러 색인 커넥터 구성을 정의할 수 있습니다. 구성은 다음 그림과 Settings 같이 > Crawl URL Entrypoints >의 드롭다운 목록에 자동으로 추가됩니다.
드롭다운 목록에서 구성을 선택하면 URL 시작 지점 목록 끝에 값이 추가됩니다.
비활성화된 색인 커넥터 구성이 드롭다운 목록에 추가되더라도 선택할 수 없습니다. 동일한 색인 커넥터 구성을 두 번 선택하면 목록 끝에 추가되고 이전 인스턴스가 삭제됩니다.
증분 크롤링을 위한 색인 커넥터 진입점을 지정하려면 다음 형식을 사용하여 항목을 추가할 수 있습니다.
index:<indexconnector_configuration_name>

Crawler는 색인 커넥터 페이지에 있는 각 추가된 항목을 처리하며 이 항목을 활성화합니다.
참고:각 문서의 URL은 색인 커넥터 구성 이름과 문서의 기본 키를 사용하여 구성되므로 증분 업데이트를 수행할 때 동일한 색인 커넥터 구성 이름을 사용해야 합니다. 이렇게 하면 이전에 인덱싱된 문서를 올바로 Adobe Search&Promote 업데이트할 수 있습니다.
URL 시작 지점 정보를 참조하십시오.
색인 커넥터를 추가할 때 설정 맵 사용
색인 커넥터를 추가할 때 선택적으로 이 기능을 사용하여 데이터 소스의 샘플을 다운로드할 Setup Maps 수 있습니다. 색인화 적합성에 대해 데이터가 검토됩니다.
색인 커넥터 유형을 선택한 경우...
설정 맵 기능...
텍스트
탭을 먼저 시도한 다음 세로 막대( | )와 쉼표( , )를 차례로 표시합니다. 설정 맵을 클릭하기 전에 이미 구분 기호 값을 지정한 경우 해당 값이 대신 사용됩니다.
최적의 구성표를 지정하면 맵 필드가 적절한 태그 및 필드 값에 대한 추측으로 채워집니다. 또한 구문 분석된 데이터의 샘플링이 표시됩니다. 파일에 머리글 행이 포함되어 있는 경우 첫 번째 행에서 머리글을 선택해야 합니다. 설정 기능은 이 정보를 사용하여 결과 맵 항목을 더 잘 식별합니다.
피드
데이터 소스를 다운로드하고 간단한 XML 구문 분석을 수행합니다.
결과 XPath 식별자는 맵 테이블의 태그 행에 표시되고 필드 값도 비슷하게 표시됩니다. 이러한 행은 사용 가능한 데이터만 식별하고 더 복잡한 XPath 정의를 생성하지 않습니다. 그러나 XML 데이터에 대해 설명하고 Itemtag 값을 식별하므로 여전히 유용합니다.
참고: 설정 맵 함수는 전체 XML 소스를 다운로드하여 분석을 수행합니다. 파일이 크면 이 작업이 시간 초과될 수 있습니다.
이 기능은 모든 가능한 XPath 항목을 식별하며, 이 중 많은 항목을 사용하지 않는 항목을 식별합니다. 결과 맵 정의를 검사하고 필요 없거나 원하는 정의를 제거해야 합니다.
XML
마스터 링크 목록이 아니라 대표 개별 문서의 URL을 다운로드합니다. 이 단일 문서는 피드와 함께 사용되는 동일한 메커니즘을 사용하여 구문 분석되고 결과가 표시됩니다.
추가를 클릭하여 구성을 저장하려면 먼저 URL을 다시 마스터 링크 목록 문서로 변경해야 합니다.
중요 :파일 구문 분석기가 전체 파일을 메모리로 읽으려고 하기 때문에 큰 XML 데이터 세트에서 설정 맵 기능을 사용할 수 없습니다. 따라서 메모리 부족 상태가 발생할 수 있습니다. 그러나 색인 작성 시 동일한 문서가 처리되면 메모리로 읽히지 않습니다. 대신, 대용량 문서는 "이동 중"으로 처리되며, 처음부터 메모리로 완전히 읽히지 않습니다.
색인 커넥터를 추가할 때 미리 보기 사용
색인 커넥터를 추가할 때 저장 Preview 중인 것처럼 이 기능을 사용하여 데이터의 유효성을 검사할 수도 있습니다. 구성에 대해 테스트를 실행하지만 구성에 구성을 저장하지 않고 실행합니다. 테스트는 구성된 데이터 소스에 액세스합니다. 그러나 다운로드 캐시를 임시 위치에 씁니다.색인 크롤러가 사용하는 기본 캐시 폴더와 충돌하지 않습니다.
미리 보기는 Acct:IndexConnector-Preview-Max-Documents에서 제어하는 5개의 문서만 기본값으로 처리합니다. 미리 본 문서는 인덱싱 크롤러에 표시될 때 소스 양식으로 표시됩니다. 디스플레이는 웹 브라우저의 "소스 보기" 기능과 유사합니다. 표준 탐색 링크를 사용하여 미리 보기 세트에서 문서를 탐색할 수 있습니다.
이러한 문서는 직접 처리되고 캐시에 다운로드되지 않으므로 미리 보기는 XML 구성을 지원하지 않습니다.

색인 커넥터 정의 추가

각 색인 커넥터 구성은 데이터 소스 및 매핑을 정의하여 해당 소스에 대해 정의된 데이터 항목을 인덱스의 메타데이터 필드에 연결합니다.
새 정의 및 활성화된 정의가 고객에게 표시되기 전에 사이트 인덱스를 다시 작성합니다.
색인 커넥터 정의를 추가하려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지에서 Stage Index Connector Definitions 을 클릭합니다 Add New Index Connector .
  3. 페이지에서 원하는 커넥터 옵션을 Index Connector Add 설정합니다. 사용할 수 있는 옵션은 선택한 옵션에 따라 Type 다릅니다.
    옵션
    설명
    이름
    색인 커넥터 구성의 고유한 이름입니다. 영숫자를 사용할 수 있습니다. "_" 및 "-" 문자도 허용됩니다.
    유형
    데이터 소스 선택하는 데이터 소스 유형은 색인 커넥터 추가 페이지에서 사용할 수 있는 결과 옵션에 영향을 줍니다. 다음 중에서 선택할 수 있습니다.
    • 텍스트
      간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분된 형식 또는 일관적으로 구분된 형식. 각 줄바꿈 구분 텍스트 줄은 개별 문서에 해당하며 지정된 구분 기호를 사용하여 구문 분석됩니다.
      열 번호에서 참조하는 각 값 또는 열을 1부터 메타데이터 필드에 매핑할 수 있습니다.
    • 피드
      여러 "행" 정보가 포함된 마스터 XML 문서를 다운로드합니다.
    • XML
      링크가 포함된 마스터 XML 문서 다운로드( <a> )을 개별 XML 문서에 추가했습니다.
    데이터 소스 유형:텍스트
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜기"로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 인덱싱을 방지할 수 있습니다.
    참고 :비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터가 있는 서버 호스트의 주소를 지정합니다.
    원하는 경우 다음 예와 같이 데이터 소스 문서의 전체 URI(Uniform Resource Identifier) 경로를 지정할 수 있습니다.
    https://www.somewhere.com/some_path/some_file.xml
    또는
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml
    URI는 호스트 주소, 파일 경로, 프로토콜 및 선택적으로 사용자 이름 및 암호 필드에 적합한 항목으로 분류됩니다.
    데이터 소스 파일이 있는 호스트 시스템의 IP 주소 또는 URL 주소를 지정합니다.
    파일 경로
    간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분된 파일 또는 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    증분 파일 경로
    간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분된 파일 또는 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 파일을 지정하지 않으면 파일 경로 아래에 나열된 파일이 대신 사용됩니다.
    세로 파일 경로
    세로 업데이트 중에 사용할 간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분된 파일 또는 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 수직 업데이트 작업 중에 다운로드 및 처리됩니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    파일 경로 삭제
    행당 단일 문서 식별자 값을 포함하는 간단한 플랫 텍스트 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 이 파일에 있는 값은 이전에 인덱싱된 문서를 제거하기 위해 "삭제" 요청을 구성하는 데 사용됩니다. 이 파일의 값은 기본 키로 식별된 열에서 전체 또는 증분 파일 경로 파일에 있는 값에 해당되어야 합니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    시간 초과
    FTP, SFTP, HTTP 또는 HTTPS 연결에 대한 시간 제한(초)을 지정합니다. 이 값은 30에서 300 사이여야 합니다.
    재시도
    실패한 FTP, SFTP, HTTP 또는 HTTPS 연결에 대한 최대 재시도 횟수를 지정합니다. 이 값은 0에서 10 사이여야 합니다.
    값이 0(0)이면 다시 시도하지 않습니다.
    인코딩
    지정된 데이터 소스 파일에 사용되는 문자 인코딩 시스템을 지정합니다.
    구분 기호
    지정된 데이터 소스 파일의 각 필드를 지정하는 데 사용할 문자를 지정합니다.
    쉼표 문자( , )는 구분 기호의 예입니다. 쉼표는 지정된 데이터 소스 파일에서 데이터 필드를 구분하는 데 도움이 되는 필드 구분 기호 역할을 합니다.
    탭을 선택하십시오. 를 클릭하여 가로 탭 문자를 구분 기호로 사용합니다.
    첫 번째 행의 머리글
    데이터 소스 파일의 첫 번째 행에 데이터가 아닌 헤더 정보만 포함됨을 나타냅니다.
    색인화를 위한 최소 문서 수
    양수 값으로 설정된 경우 다운로드한 파일에 필요한 최소 레코드 수를 지정합니다. 수신되는 레코드 수가 적으면 색인 작업이 중단됩니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    참고 :이 기능은 전체 색인 작업 중에만 사용됩니다.
    열 번호를 사용하여 열-메타데이터 매핑을 지정합니다.
    • 열 번호를 지정합니다. 첫 번째 열은 1입니다. 각 열에 대한 새 맵 행을 추가하려면 작업 아래에서 + 를 클릭합니다 .
      데이터 소스의 각 열을 참조할 필요가 없습니다. 대신 값을 건너뛰도록 선택할 수 있습니다.
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값을 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 되도록 합니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드가 될 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용되는 컨텐츠를 만드는 데 유용할 수 있습니다 .
      Index Connector가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 필드의 목록 구분 기호 값(처음 정의된 구분 기호)이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 이 문서를 색인에 추가할 때 표시되는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 사본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드를 함께 사용하면 고유한 식별자를 만들 수 있습니다 . 여러 개의 기본 키를 세로 막대("|")와 결합하여 기본 키를 정의할 수 있습니다.
    • HTML을 분리하시겠습니까?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행 순서는 중요하지 않습니다.
    데이터 소스 유형:피드
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜기"로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 인덱싱을 방지할 수 있습니다.
    참고 :비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터 소스 파일이 있는 호스트 시스템의 IP 주소 또는 URL 주소를 지정합니다.
    파일 경로
    여러 정보의 "행"을 포함하는 마스터 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    증분 파일 경로
    여러 정보의 "행"을 포함하는 증분 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 파일을 지정하지 않으면 파일 경로 아래에 나열된 파일이 대신 사용됩니다.
    세로 파일 경로
    세로 업데이트 중에 사용할 여러 개의 스파스 "행" 정보가 포함된 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 수직 업데이트 작업 중에 다운로드 및 처리됩니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    파일 경로 삭제
    행당 단일 문서 식별자 값을 포함하는 간단한 플랫 텍스트 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 이 파일에 있는 값은 이전에 인덱싱된 문서를 제거하기 위해 "삭제" 요청을 구성하는 데 사용됩니다. 이 파일의 값은 기본 키로 식별된 열에서 전체 또는 증분 파일 경로 파일에 있는 값에 해당되어야 합니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    Itemtag
    지정한 데이터 소스 파일에서 개별 XML 행을 식별하는 데 사용할 수 있는 XML 요소를 식별합니다.
    예를 들어 다음 Adobe XML 문서의 피드 조각에서 Itemtag 값은 레코드입니다 .
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    색인화를 위한 최소 문서 수
    양수 값으로 설정된 경우 다운로드한 파일에 필요한 최소 레코드 수를 지정합니다. 수신되는 레코드 수가 적으면 색인 작업이 중단됩니다.
    참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    참고 :이 기능은 전체 색인 작업 중에만 사용됩니다.
    XPath 표현식을 사용하여 XML-요소-메타데이터 매핑을 지정할 수 있습니다.
    • 태그
      파싱된 XML 데이터의 XPath 표현을 지정합니다. 위의 Adobe XML 문서 예제를 사용하여 Itemtag 옵션 아래에서 다음 구문을 사용하여 매핑할 수 있습니다.
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      위의 구문은 다음과 같이 해석됩니다.
      • /record/@displayurl&nbsp;->&nbsp;page-url
        레코드 요소의 displayurl 속성이 메타데이터 필드 페이지-URL에 매핑됩니다 .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        메타데이터 요소 내부에 들어 있는 메타 요소 내에 포함된 모든 메타 요소, 즉 레코드 요소 내에 들어 있는 컨텐트 속성, 이름이 제목이고, 이름이 메타데이터 필드에 매핑됩니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        메타 데이터 요소 내부에 들어 있는 메타 데이터 요소 내부에 들어 있는, 메타 데이터 요소 내부에 들어 있는, 해당 이름이 설명, 메타데이터 필드 설명으로 매핑되는 메타 데이터 요소 내에 들어 있는 모든 컨텐츠 속성입니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        메타데이터 요소 내에 들어 있는 메타 데이터 요소 내에 포함된 모든 메타 요소의 content 속성, 즉 레코드 요소에 포함된 이름이 설명, 메타데이터 필드 및 메타데이터 본문에 매핑됩니다.
      XPath는 상대적으로 복잡한 표기법입니다. 자세한 내용은 다음 위치에서 확인할 수 있습니다.
      https://www.w3schools.com/xpath/을 참조하십시오.
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값을 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 되도록 합니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드가 될 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용되는 컨텐츠를 만드는 데 유용할 수 있습니다 .
      Index Connector가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 필드의 목록 구분 기호 값(처음 정의된 구분 기호)이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 이 문서를 색인에 추가할 때 표시되는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 사본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드를 함께 사용하면 고유한 식별자를 형성할 수 있는 경우, 여러 개의 태그를 세로 막대("|")와 결합하여 기본 키를 정의할 수 있습니다.
    • HTML을 분리하시겠습니까?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 삭제에 사용하시겠습니까?
      증분 색인 작업 중에만 사용됩니다. 이 XPath 패턴과 일치하는 레코드가 삭제될 항목을 식별합니다. 각 레코드에 대한 기본 키 값은 파일 삭제 경로와 같이 "삭제" 요청을 구성하는 데 사용됩니다.
      참고 :이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행 순서는 중요하지 않습니다.
    데이터 소스 유형:XML
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜기"로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 인덱싱을 방지할 수 있습니다.
    참고 :비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터 소스 파일이 있는 호스트 시스템의 URL 주소를 지정합니다.
    파일 경로
    링크가 포함된 마스터 XML 문서의 경로를 지정합니다( <a> )을 개별 XML 문서에 추가했습니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    참고 :프로토콜 설정은 호스트 주소 및/또는 파일 경로 필드에 정보가 지정된 경우에만 사용됩니다. 개별 XML 문서는 URL 사양에 따라 HTTP 또는 HTTPS를 사용하여 다운로드됩니다.
    Itemtag
    지정한 데이터 소스 파일에서 "행"을 정의하는 XML 요소를 식별합니다.
    열 번호를 사용하여 열-메타데이터 매핑을 지정할 수 있습니다.
    • 태그
      파싱된 XML 데이터의 XPath 표현을 지정합니다. 위의 Adobe XML 문서 예제를 사용하여 Itemtag 옵션 아래에서 다음 구문을 사용하여 매핑할 수 있습니다.
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      위의 구문은 다음과 같이 해석됩니다.
      • /record/@displayurl&nbsp;->&nbsp;page-url
        레코드 요소의 displayurl 속성이 메타데이터 필드 페이지-URL에 매핑됩니다 .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        메타데이터 요소 내부에 들어 있는 메타 요소 내에 포함된 모든 메타 요소, 즉 레코드 요소 내에 들어 있는 컨텐트 속성, 이름이 제목이고, 이름이 메타데이터 필드에 매핑됩니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        메타 데이터 요소 내부에 들어 있는 메타 데이터 요소 내부에 들어 있는, 메타 데이터 요소 내부에 들어 있는, 해당 이름이 설명, 메타데이터 필드 설명으로 매핑되는 메타 데이터 요소 내에 들어 있는 모든 컨텐츠 속성입니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        메타데이터 요소 내에 들어 있는 메타 데이터 요소 내에 포함된 모든 메타 요소의 content 속성, 즉 레코드 요소에 포함된 이름이 설명, 메타데이터 필드 및 메타데이터 본문에 매핑됩니다.
      XPath는 상대적으로 복잡한 표기법입니다. 자세한 내용은 다음 위치에서 확인할 수 있습니다.
      https://www.w3schools.com/xpath/을 참조하십시오.
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값을 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 되도록 합니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드가 될 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용되는 컨텐츠를 만드는 데 유용할 수 있습니다 .
      Index Connector가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 필드의 목록 구분 기호 값(처음 정의된 구분 기호)이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 이 문서를 색인에 추가할 때 표시되는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 사본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드를 함께 사용하면 고유한 식별자를 형성할 수 있는 경우, 여러 개의 태그를 세로 막대("|")와 결합하여 기본 키를 정의할 수 있습니다.
    • HTML을 분리하시겠습니까?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행 순서는 중요하지 않습니다.
  4. (선택 사항) Setup Maps 을 클릭하여 데이터 소스의 샘플을 다운로드합니다. 색인화 적합성에 대해 데이터가 검토됩니다. 이 기능은 텍스트 및 피드 유형에만 사용할 수 있습니다.
  5. (선택 사항) Preview 을 클릭하여 실제 구성 작업을 테스트합니다. 이 기능은 텍스트 및 피드 유형에만 사용할 수 있습니다.
  6. Add 클릭하여 Index Connector Definitions 페이지 및 페이지의 Index Connector Configurations URL Entrypoints 드롭다운 목록에 구성을 추가합니다.
  7. 페이지에서 Index Connector Definitions 을 클릭합니다 rebuild your staged site index .
  8. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

색인 커넥터 정의 편집

정의한 기존 색인 커넥터를 편집할 수 있습니다.
색인 커넥터 이름 또는 Type 드롭다운 목록에서 유형 등과 같은 일부 옵션을 변경할 수 없습니다.
색인 커넥터 정의를 편집하려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지의 Index Connector 열 머리글에서 설정을 변경할 색인 커넥터 정의 이름을 Actions Edit 클릭합니다.
  3. 페이지에서 원하는 옵션을 Index Connector Edit 설정합니다.
    색인 커넥터 정의 추가 아래의 옵션 표를 참조하십시오.
  4. 클릭 Save Changes .
  5. (선택 사항) Index Connector Definitions 페이지에서 을 클릭합니다 rebuild your staged site index .
  6. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

색인 커넥터 정의 설정 보기

기존 색인 커넥터 정의의 구성 설정을 검토할 수 있습니다.
색인 커넥터 정의를 Index Connector Definitions 페이지에 추가한 후에는 해당 유형 설정을 변경할 수 없습니다. 대신 정의를 삭제한 다음 새로 추가해야 합니다.
색인 커넥터 정의의 설정을 보려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지의 Index Connector 열 머리글에서 설정을 검토하거나 편집할 색인 커넥터 정의 이름을 Actions Edit 클릭합니다.

색인 커넥터 정의 복사

기존 색인 커넥터 정의를 복사하여 만들려는 새 색인 커넥터에 대한 기초로 사용할 수 있습니다.
색인 커넥터 정의를 복사할 때 기본적으로 복사된 정의가 비활성화됩니다. 정의를 활성화 또는 "켜기"하려면 Index Connector Edit 페이지에서 편집한 후 선택해야 합니다 Enable .
색인 커넥터 정의 편집을 참조하십시오.
색인 커넥터 정의를 복사하려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지의 Index Connector 열 머리글에서 설정을 복제할 색인 커넥터 정의 이름을 Actions Copy 클릭합니다.
  3. 페이지에서 Index Connector Copy 정의의 새 이름을 입력합니다.
  4. 클릭 Copy .
  5. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

색인 커넥터 정의 이름 바꾸기

기존 색인 커넥터 정의의 이름을 변경할 수 있습니다.
정의의 이름을 변경한 후 Settings > Crawling > URL Entrypoints ​을 선택합니다. 새 정의 이름이 URL Entrypoints 페이지의 드롭다운 목록에 반영되도록 합니다.
색인화할 여러 URL 진입점 추가를 참조하십시오.
색인 커넥터 정의 이름을 변경하려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지의 Index Connector 열 머리글에서 변경할 색인 커넥터 정의 이름을 Actions Rename 클릭합니다.
  3. 페이지에서 Index Connector Rename 필드에 새 정의 이름을 입력합니다 Name .
  4. 클릭 Rename .
  5. 클릭 Settings > Crawling > URL Entrypoints . 이전 색인 커넥터 이름이 목록에 있으면 제거한 다음 새로 이름이 변경된 항목을 추가합니다.
    색인화할 여러 URL 진입점 추가를 참조하십시오. 1. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.
    • 아이콘을 History 클릭하여 변경한 내용을 되돌립니다.
      작업 내역 옵션 사용을 참조하십시오.
    • 클릭 Live .
      라이브 설정 보기를 참조하십시오.
    • 클릭 Push Live .
      스테이지 설정 라이브를 참조하십시오.

색인 커넥터 정의 삭제

더 이상 필요하거나 사용하지 않는 기존 색인 커넥터 정의를 삭제할 수 있습니다.
색인 커넥터 정의를 삭제하려면
  1. 제품 메뉴에서 > Settings > Crawling > Index Connector ​을 클릭합니다.
  2. 페이지의 Index Connector Definitions 열 머리글에서 제거할 색인 커넥터 Actions Delete 정의 이름을 클릭합니다.
  3. 페이지에서 Index Connector Delete 을 클릭합니다 Delete .