Show Menu
화제×

크롤링 메뉴 정보

크롤링 메뉴 세트 날짜 및 URL 마스크, 암호, 컨텐츠 유형, 연결, 양식 정의 및 URL 시작 지점을 사용합니다.

URL 시작 지점 정보

대부분의 웹 사이트에는 고객이 처음으로 방문하는 하나의 기본 시작 지점 또는 홈 페이지가 있습니다. 이 기본 진입점은 검색 로봇이 색인 크롤링을 시작하는 URL 주소입니다. 그러나 웹 사이트에 여러 도메인 또는 하위 도메인이 있거나 사이트의 일부가 기본 시작 지점에서 연결되어 있지 않은 경우 URL 시작 지점을 사용하여 더 많은 시작 지점을 추가할 수 있습니다.
지정된 각 URL 시작 지점 아래의 모든 웹 사이트 페이지는 인덱싱됩니다. URL 시작 지점을 마스크와 결합하여 색인화할 웹 사이트의 특정 부분을 정확하게 제어할 수 있습니다. 고객이 URL 시작 지점 설정의 효과를 볼 수 있으려면 먼저 웹 사이트 색인을 다시 구성해야 합니다.
기본 시작 지점은 일반적으로 색인 및 검색할 웹 사이트의 URL입니다. 계정 설정에서 이 기본 진입점을 구성합니다.
기본 URL 시작 지점을 지정한 후에는 선택적으로 크롤링할 추가 시작 지점을 지정할 수 있습니다. 대부분의 경우 기본 시작 지점 아래의 페이지에서 연결되지 않은 웹 페이지의 추가 시작 지점을 지정합니다. 다음 예제와 같이 웹 사이트가 두 개 이상의 도메인에 걸쳐 있을 때 추가 시작 지점을 지정합니다.
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
아래 표에서 하나 이상의 공백으로 구분된 키워드로 각 진입점을 평가할 수 있습니다. 이러한 키워드는 페이지의 인덱스 방식에 영향을 줍니다.
중요 : 주어진 키워드를 시작 지점에서 분리하고 다른 키워드와 공백으로 구분해야 합니다. 쉼표는 올바른 구분 기호가 아닙니다.
키워드
설명
인덱스
시작 지점 페이지의 텍스트를 색인화하지 않고 페이지의 링크를 따르려면 인덱스 를 클릭합니다.
다음 예제와 같이 키워드를 시작 지점에서 공백으로 구분합니다.
https://www.my-additional-domain.com/more_pages/main.html noindex
이 키워드는 content="noindex" ) between <head> ... </head> 태그입니다.
nofollow
시작 지점 페이지의 텍스트를 색인화하지만 페이지의 링크를 따라가지 않으려면 nofollow 를 클릭합니다.
다음 예제와 같이 키워드를 시작 지점에서 공백으로 구분합니다.
https://www.domain.com/not_linked/directory_listing&nbsp;nofollow
이 키워드는 content="nofollow" 사이 <head> ... </head> 태그입니다.
양식
시작 지점이 로그인 페이지이면 양식 은 일반적으로 검색 로봇이 웹 사이트를 크롤하기 전에 로그인 양식을 제출하고 적절한 쿠키를 수신할 수 있도록 사용됩니다. "form" 키워드를 사용할 때 시작 지점 페이지는 인덱싱되지 않고 검색 로봇은 시작 지점 페이지를 크롤링으로 표시하지 않습니다. 최상의 결과를 얻으려면 nofollow 검색 로봇이 페이지의 링크를 따르지 않도록 하려는 경우.

인덱싱할 여러 URL 진입점 추가

웹 사이트에 여러 도메인 또는 하위 도메인이 있고 이를 크롤링하려는 경우 URL 진입점을 사용하여 URL을 더 추가할 수 있습니다.
웹 사이트의 기본 URL 시작 지점을 설정하려면 계정 설정을 사용합니다.
인덱싱할 여러 URL 진입점을 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 URL Entrypoints ​클릭합니다.
  2. 페이지의 URL Entrypoints 필드에 Entrypoints 줄당 하나의 URL 주소를 입력합니다.
  3. (선택 사항) Add Index Connector Configurations 드롭다운 목록에서 색인화를 위한 시작 지점으로 추가할 색인 커넥터를 선택합니다.
    드롭다운 목록은 이전에 하나 이상의 색인 커넥터 정의를 추가한 경우에만 사용할 수 있습니다.
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.

URL 마스크 정보

URL 마스크는 검색 로봇이 색인화하거나 색인하지 않는 웹 사이트 문서 중 하나를 결정하는 패턴입니다.
URL 마스크 결과가 고객에게 표시되도록 사이트 색인을 다시 구성해야 합니다.
다음은 사용할 수 있는 두 가지 유형의 URL 마스크입니다.
  • URL 마스크 포함
  • URL 마스크 제외
URL 마스크 포함: 검색 로봇이 마스크 패턴과 일치하는 모든 문서를 색인화하도록 합니다.
URL 제외 마스크는 검색 로봇에 일치하는 문서를 색인화하도록 알립니다.
검색 로봇이 링크에서 웹 사이트를 통해 이동할 때 URL을 찾아 해당 URL과 일치하는 마스크를 찾습니다. 첫 번째 일치 항목에서는 색인에서 해당 URL을 포함할지 또는 제외할지를 결정합니다. 발견된 URL과 일치하는 마스크가 없으면 해당 URL이 인덱스에서 무시됩니다.
시작 지점 URL에 대한 URL 마스크 포함이 자동으로 생성됩니다. 이 동작을 통해 웹 사이트에서 발생하는 모든 문서가 인덱싱됩니다. 또한 웹 사이트를 떠나는 링크가 포함되어 있지 않습니다. 예를 들어, 인덱싱된 페이지가 https://www.yahoo.com으로 링크되는 경우 검색 로봇은 진입점 URL에 의해 자동으로 생성된 포함 마스크와 일치하지 않기 때문에 해당 URL을 색인화하지 않습니다.
지정하는 각 URL 마스크는 별도의 줄에 있어야 합니다.
마스크는 다음 중 하나를 지정할 수 있습니다.
  • 전체 경로 https://www.mydomain.com/products.html .
  • 의 일부 경로입니다 https://www.mydomain.com/products .
  • 와일드카드를 사용하는 URL입니다 https://www.mydomain.com/*.html .
  • 정규 표현식(고급 사용자의 경우).
    마스크를 정규 표현식 regexp 으로 만들려면 마스크 유형( exclude 또는)과 URL 마스크 사이에 키워드를 include 삽입합니다.
다음은 간단한 제외 URL 마스크 예입니다.
exclude https://www.mydomain.com/photos

이 예제는 제외 URL 마스크이므로 패턴과 일치하는 모든 문서는 색인이 되지 않습니다. 이 패턴은 파일과 폴더 모두, 발견된 모든 항목과 일치하므로 https://www.mydomain.com/photos.html https://www.mydomain.com/photos/index.html 모두 제외 URL과 일치하는 항목이 인덱싱되지 않습니다. 폴더에 있는 파일만 일치시키려면 다음 예와 같이 URL 마스크에 후행 슬래시가 포함되어야 합니다. /photos/
exclude https://www.mydomain.com/photos/

다음 제외 마스크 예제에서는 와일드카드 사용 방법을 사용합니다. 검색 로봇에게 확장자가 ".pdf"인 파일을 간과하도록 알려줍니다. 검색 로봇은 이러한 파일을 색인에 추가하지 않습니다.
exclude *.pdf

간단한 포함 URL 마스크는 다음과 같습니다.
include https://www.mydomain.com/news/

URL 진입점의 일련의 링크 방식으로 연결되어 있거나 URL 진입점 자체로 사용되는 문서만 인덱싱됩니다. 문서의 URL을 포함 URL 마스크로 나열하는 것만으로 링크가 없는 문서는 인덱싱되지 않습니다. 인덱스에 연결되지 않은 문서를 추가하려면 URL 시작 지점 기능을 사용할 수 있습니다.
마스크 포함 및 마스크 제외는 함께 사용할 수 있습니다. 제외 URL 마스크를 만들고 포함 URL 마스크가 있는 제외되는 하나 이상의 페이지를 포함하여 웹 사이트의 큰 부분을 인덱스에서 제외할 수 있습니다. 예를 들어, 시작 지점 URL이 다음과 같다고 가정합니다.
https://www.mydomain.com/photos/

검색 로봇은 모든 하위 페이지를 크롤링하고 인덱싱하며, 폴더 /photos/summer/ 에서 각 디렉토리 /photos/spring/ 에 최소 한 개 이상의 페이지에 대한 링크가 있다고 가정하는 경우 /photos/fall/ photos 이 가능합니다. 이 동작은 링크 경로를 통해 검색 로봇이 시작 지점 URL에 의해 자동으로 생성된 포함 마스크 /summer/ , /spring/ 및 폴더 /fall/ 에서 문서를 검색하고 폴더 URL이 포함된 마스크와 일치하기 때문에 발생합니다.
다음 예제와 같이 제외 URL 마스크가 있는 /fall/ 폴더의 모든 페이지를 제외하도록 선택할 수 있습니다.
exclude https://www.mydomain.com/photos/fall/

또는 다음 URL 마스크가 있는 색인의 일부로만 선택적으로 포함: /photos/fall/redleaves4.html
include https://www.mydomain.com/photos/fall/redleaves4.html

위의 두 마스크 예가 의도한 대로 작동하려면 다음 경우처럼 포함 마스크가 먼저 나열됩니다.
include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

검색 로봇은 나열된 순서대로 방향을 따르기 때문에 먼저 검색 로봇이 /photos/fall/redleaves4.html 포함시킨 다음 나머지 파일을 /fall 폴더에 제외합니다.
지침을 다음과 같이 정반대로 지정한 경우:
exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

그런 다음 마스크 /photos/fall/redleaves4.html 가 포함되도록 지정되더라도 포함되지 않습니다.
먼저 나타나는 URL 마스크가 항상 마스크 설정 뒤에 나타나는 URL 마스크보다 우선합니다. 또한 검색 로봇이 포함 URL 마스크 및 제외 URL 마스크와 일치하는 페이지가 나타나면 먼저 나열된 마스크가 항상 우선합니다.

URL 마스크가 있는 키워드 사용 정보

일치하는 페이지가 인덱싱되는 방식에 영향을 주는 하나 이상의 공백으로 구분된 키워드로 각 포함 마스크를 평가할 수 있습니다.
쉼표는 마스크와 키워드 간의 구분 문자로 사용할 수 없습니다. 공백만 사용할 수 있습니다.
키워드
설명
인덱스
URL 마스크와 일치하는 페이지의 텍스트를 색인화하지 않고 일치된 페이지 링크를 따르려면 인덱스 URL 포함 마스크 후. 다음 예제와 같이 마스크에서 키워드를 공백으로 구분해야 합니다.
include&nbsp;*.swf&nbsp;noindex
위의 예는 검색 로봇이 .swf 확장자를 지정합니다.
The 인덱스 키워드는 content="noindex" 사이 <head>..</head> 일치하는 페이지의 태그입니다.
nofollow
URL 마스크와 일치하는 페이지의 텍스트를 색인화하지만 일치하는 페이지의 링크를 따라가지 않으려면 nofollow URL 포함 마스크 후. 다음 예제와 같이 마스크에서 키워드를 공백으로 구분해야 합니다.
include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
The nofollow 키워드는 content="nofollow" 사이 <head>..</head> 일치하는 페이지의 태그입니다.
regexp
마스크 포함 및 제외에 모두 사용됩니다.
앞에 regexp 은 정규식으로 취급됩니다. 검색 로봇에서 제외 정규 표현식 URL 마스크와 일치하는 문서가 발견되면 해당 문서는 인덱싱되지 않습니다. 검색 로봇에서 정규 표현식 URL 마스크가 포함된 문서와 일치하는 문서가 발견되면 해당 문서는 인덱싱됩니다. 예를 들어 다음과 같은 URL 마스크가 있다고 가정합니다.
exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$
검색 로봇은 https://www.mydomain.com/products/page1.html
다음의 정규 표현식 URL 마스크를 제외하는 경우:
exclude&nbsp;regexp&nbsp;^.*\?..*$
검색 로봇은 https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .
정규 표현식 URL 마스크가 포함되어 있는 경우:
include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex
검색 로봇은 확장자가 ".swf"인 파일의 모든 링크를 따릅니다. The 인덱스 키워드는 일치하는 파일의 텍스트가 인덱싱되지 않도록 지정합니다.

웹 사이트의 부분 색인에 URL 마스크 추가

웹 사이트 URL Masks 의 어떤 부분을 크롤링 및 인덱스화할 것인지 정의할 수 있습니다.
# 필드를 사용하여 색인 후에 문서가 포함되어 있는지 여부를 테스트합니다.
URL 마스크 결과가 고객에게 표시되도록 사이트 색인을 다시 구성해야 합니다.
웹 사이트의 일부분을 색인화하거나 색인화하지 않고 URL 마스크를 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 URL Masks ​클릭합니다.
  2. (선택 사항) URL Masks 페이지의 Test URL Masks 필드에 웹 사이트의 테스트 URL 마스크를 입력한 다음 을 클릭합니다 Test .
  3. 필드에 URL Masks URL include 마스크 주소를 입력(크롤링 및 인덱싱할 웹 사이트 추가) exclude 하거나 입력(웹 사이트가 크롤링 및 인덱싱되지 않도록 차단)한 다음 URL 마스크 주소를 입력합니다.
    줄당 하나의 URL 마스크 주소를 입력합니다. 예:
    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
    
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.

날짜 마스크 정보

날짜 마스크를 사용하여 파일 기간을 기준으로 검색 결과에서 파일을 포함하거나 제외할 수 있습니다.
URL 마스크 결과가 고객에게 표시되도록 사이트 색인을 다시 구성해야 합니다.
다음은 사용할 수 있는 두 가지 날짜 마스크입니다.
  • 날짜 마스크 포함("include-days" 및 "include-date")
    지정된 날짜 또는 이전에 날짜가 지정된 날짜 마스크 인덱스 파일을 포함합니다.
  • 날짜 마스크 제외("제외 일" 및 "제외 날짜")
    지정된 날짜 또는 그 이전에 날짜가 지정된 날짜 마스크 인덱스 파일을 제외합니다.
기본적으로 파일 날짜는 메타 태그 정보로 결정됩니다. 메타 태그를 찾을 수 없는 경우 검색 로봇이 파일을 다운로드할 때 서버로부터 수신되는 HTTP 헤더에서 파일 날짜가 결정됩니다.
지정한 각 날짜 마스크는 별도의 줄에 있어야 합니다.
마스크는 다음 중 하나를 지정할 수 있습니다.
  • 전체 경로 https://www.mydomain.com/products.html
  • 부분 경로 https://www.mydomain.com/products
  • 와일드카드를 사용하는 URL https://www.mydomain.com/*.html
  • 정규식 마스크를 정규 표현식으로 만들려면 URL regexp 앞에 키워드를 삽입합니다.
날짜 마스크 포함 및 제외 모두 다음 두 방법 중 하나로 날짜를 지정할 수 있습니다. 마스크는 지정된 날짜 또는 이전에 일치하는 파일을 만든 경우에만 적용됩니다.
  1. 일 수 예를 들어, 날짜 마스크가 다음과 같다고 가정합니다.
    exclude-days 30 https://www.mydomain.com/docs/archive/)
    
    
    지정된 일 수가 다시 계산됩니다. 파일이 도착 날짜 또는 그 전에 날짜가 지정된 경우 마스크가 적용됩니다.
  2. YYYY-MM-DD 형식을 사용하는 실제 날짜입니다. 예를 들어, 날짜 마스크가 다음과 같다고 가정합니다.
    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    
    
    일치하는 문서의 날짜가 지정된 날짜 또는 그 이전이면 날짜 마스크가 적용됩니다.
다음은 간단한 제외 날짜 마스크 예입니다.
exclude-days 90 https://www.mydomain.com/docs/archive

이 마스크는 제외 날짜 마스크이므로 패턴과 일치하는 모든 파일은 색인되지 않고 90일 이전 버전입니다. 문서를 제외할 때, 텍스트는 인덱싱되지 않고 해당 파일에서 따라오는 링크가 없습니다. 파일이 효과적으로 무시됩니다. 이 예에서 파일과 폴더 모두 지정된 URL 패턴과 일치할 수 있습니다. 패턴과 https://www.mydomain.com/docs/archive.html 일치하고 90일 이상 https://www.mydomain.com/docs/archive/index.html 의 경우 색인이 되지 않습니다. 폴더의 파일만 일치시키려면 날짜 마스크에 다음과 같이 후행 슬래시가 포함되어야 합니다. /docs/archive/
exclude-days 90 https://www.mydomain.com/docs/archive/

날짜 마스크는 와일드카드와 함께 사용할 수도 있습니다. 다음 제외 마스크는 검색 로봇에 2011-02-15 이전의 ".pdf" 확장자를 가진 파일을 간과하도록 지시합니다. 검색 로봇이 인덱스에 일치하는 파일을 추가하지 않습니다.
exclude-date 2011-02-15 *.pdf

날짜 마스크 포함 모양이 유사하며 일치하는 파일만 색인에 추가됩니다. 다음 날짜 마스크 예제는 검색 로봇에 웹 사이트 영역에 있는 0일 또는 그 이전의 모든 파일에서 텍스트를 색인화하는 것을 /docs/archive/manual/ 알려줍니다.
include-days 0 https://www.mydomain.com/docs/archive/manual/

마스크 포함 및 마스크 제외는 함께 사용할 수 있습니다. 예를 들어 제외 날짜 마스크를 만들고 URL 마스크가 포함된 제외된 하나 이상의 페이지를 포함시켜 웹 사이트의 큰 부분을 인덱스에서 제외할 수 있습니다. 시작 지점 URL이 다음과 같은 경우:
https://www.mydomain.com/archive/

검색 로봇은 모든 페이지 /archive/summer/ , /archive/spring/ /archive/fall/ 아래의 페이지를 크롤링하고 인덱싱합니다( archive 폴더의 각 폴더에 하나 이상의 페이지에 대한 링크가 있다고 가정함). 이러한 동작은 링크 경로를 통해 검색 로봇이 시작 지점 URL에 의해 자동으로 생성된 포함 마스크 /summer/ , /spring/ /fall/ 폴더의 파일을 "찾기"할 수 있게 하고 폴더 URL과 일치시키기 때문입니다.
다음과 같이 제외 날짜 마스크가 있는 /fall/ 폴더에서 90일이 지난 모든 페이지를 제외하도록 선택할 수 있습니다.
exclude-days 90 https://www.mydomain.com/archive/fall/

다음 날짜 마스크가 있는 인덱스의 일부로( /archive/fall/index.html 파일 사용 연령이 어떠하든 상관없이 모든 파일 0일 또는 이전 버전이 일치함)만 선택적으로 포함할 수 있습니다.
include-days 0 https://www.mydomain.com/archive/fall/index.html

위의 두 마스크 예가 의도한 대로 작동하려면 다음처럼 먼저 포함 마스크를 나열해야 합니다.
include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

검색 로봇은 지정된 순서대로 방향을 따르기 때문에 먼저 검색 로봇이 포함시킨 /archive/fall/index.html 다음 폴더의 나머지 파일을 /fall 제외합니다.
지침을 다음과 같이 정반대로 지정한 경우:
exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

그런 다음 마스크 /archive/fall/index.html 가 포함되도록 지정되더라도 포함되지 않습니다. 맨 처음 나타나는 날짜 마스크는 항상 마스크 설정에 나중에 나타날 수 있는 날짜 마스크보다 우선합니다. 또한 검색 로봇이 포함 날짜 마스크와 제외 날짜 마스크와 일치하는 페이지가 나타나면 먼저 나열된 마스크가 우선합니다.

날짜 마스크와 함께 키워드 사용 정보

일치하는 페이지가 인덱싱되는 방식에 영향을 주는 하나 이상의 공백으로 구분된 키워드로 각 포함 마스크를 평가할 수 있습니다.
쉼표는 마스크와 키워드 간의 구분 문자로 사용할 수 없습니다. 공백만 사용할 수 있습니다.
키워드
설명
인덱스
포함 마스크로 지정된 날짜 또는 이전 날짜에 날짜가 지정된 페이지의 텍스트를 색인화하지 않으려면 인덱스 날짜 마스크 포함 후:
include-days&nbsp;10&nbsp;*.swf&nbsp;noindex
키워드가 마스크와 공백으로 구분되어 있어야 합니다.
위의 예에서는 검색 로봇이 10일 이전의 ".swf" 확장자를 사용하는 파일의 모든 링크를 따르도록 지정합니다. 그러나 해당 파일에 포함된 모든 텍스트의 인덱싱을 비활성화합니다.
이전 파일의 텍스트가 인덱스되지 않고 해당 파일의 모든 링크를 따라가도록 할 수도 있습니다. 이러한 경우 제외 날짜 마스크를 사용하는 대신 "noindex" 키워드와 함께 포함 날짜 마스크를 사용하십시오.
nofollow
포함 마스크로 지정된 날짜 또는 이전 날짜에 날짜가 지정된 페이지의 텍스트를 색인화하고자 하지만 일치하는 페이지의 링크를 따라가지 않으려면 nofollow 날짜 마스크 포함 후:
include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow
키워드가 마스크와 공백으로 구분되어 있어야 합니다.
The nofollow 키워드는 content="nofollow" 사이 <head>..</head> 일치하는 페이지의 태그입니다.
server-date
마스크 포함 및 제외에 모두 사용됩니다.
검색 로봇은 일반적으로 날짜 마스크를 확인하기 전에 모든 파일을 다운로드하고 구문 분석합니다. 이러한 동작은 일부 파일 유형이 파일 자체 내에 날짜를 지정할 수 있기 때문에 발생합니다. 예를 들어 HTML 문서에는 파일 날짜를 설정하는 메타 태그가 포함될 수 있습니다.
날짜를 기준으로 많은 파일을 제외하려고 하는데 서버에 불필요한 로드를 추가하지 않으려는 경우 server-date 을 클릭합니다.
이 키워드는 검색 로봇이 각 파일을 구문 분석하는 대신 서버에서 반환된 파일의 날짜를 신뢰하도록 합니다. 예를 들어, 다음 제외 날짜 마스크는 HTTP 헤더에서 서버가 반환하는 날짜에 따라 문서가 90일 이상인 경우 URL과 일치하는 페이지를 무시합니다.
exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date
서버에서 반환된 날짜가 90일 이상인 경우 server-date 제외된 문서를 서버에서 다운로드하지 않도록 지정합니다. 따라서 문서를 보다 빠르게 인덱싱하고 서버에 부담을 덜 수 있습니다. If server-date 을 지정하지 않으면 검색 로봇은 HTTP 헤더에서 서버에서 반환하는 날짜를 무시합니다. 대신 각 파일이 다운로드되어 날짜가 지정되었는지 확인합니다. 파일에 날짜가 지정되지 않은 경우 검색 로봇은 서버에서 반환하는 날짜를 사용합니다.
사용 금지 server-date 파일에 서버 날짜를 무시하는 명령이 포함되어 있는 경우.
regexp
마스크 포함 및 제외에 모두 사용합니다.
앞에 오는 모든 날짜 마스크 regexp 은 정규식으로 취급됩니다.
검색 로봇이 제외 정규 표현식 날짜 마스크와 일치하는 파일을 발견하면 해당 파일을 색인화하지 않습니다.
검색 로봇이 정규 표현식 날짜 마스크와 일치하는 파일을 발견하면 해당 문서를 인덱싱합니다.
예를 들어 다음과 같은 날짜 마스크가 있다고 가정합니다.
exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*
마스크는 검색 로봇에 180일 이상의 일치하는 파일을 제외하도록 지시합니다. 즉, URL에 "archive"라는 단어가 포함된 파일입니다.

웹 사이트의 부분 색인에 날짜 마스크 추가

날짜 마스크를 사용하여 파일 기간을 기준으로 고객 검색 결과에서 파일을 포함하거나 제외할 수 있습니다.
색인 다음에 파일이 포함되어 있는지 여부를 테스트하려면 Test Date Test URL 필드를 사용하십시오.
URL 마스크 결과가 고객에게 표시되도록 사이트 색인을 다시 구성해야 합니다.
웹 사이트의 일부분을 색인화하거나 색인화하지 않고 날짜 마스크를 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Date Masks ​클릭합니다.
  2. (선택 사항) Date Masks 페이지의 Test Date 필드에 YYYY-MM-DD로 서식이 지정된 날짜를 입력합니다(예: 2011-07-25 ). 필드에 웹 사이트의 URL 마스크를 Test URL 입력한 다음 을 클릭합니다 Test .
  3. 필드에 Date Masks 라인당 하나의 날짜 마스크 주소를 입력합니다.
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.

암호 정보

HTTP 기본 인증을 통해 보호되는 웹 사이트의 일부에 액세스하려면 암호를 하나 이상 추가할 수 있습니다.
고객이 암호 설정의 효과를 볼 수 있으려면 먼저 사이트 색인을 다시 구성해야 합니다.
이 Passwords 페이지에 각 암호를 한 줄에 입력합니다. 암호는 다음 예제와 같이 URL 또는 영역, 사용자 이름 및 암호로 구성됩니다.
https://www.mydomain.com/ myname mypassword

위와 같이 URL 경로를 사용하는 대신 영역을 지정할 수도 있습니다.
올바른 영역을 확인하려면 브라우저로 암호로 보호된 웹 페이지를 열고 "네트워크 암호 입력" 대화 상자를 확인합니다.
이 경우 영역 이름은 "내 사이트 영역"입니다.
위의 영역 이름을 사용하면 암호가 다음과 같이 표시될 수 있습니다.
My Site Realm myusername mypassword

웹 사이트에 여러 영역이 있는 경우 다음 예제와 같이 별도의 라인에 각 영역에 대한 사용자 이름과 암호를 입력하여 여러 암호를 만들 수 있습니다.
Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

URL 또는 영역을 포함하는 암호를 혼합하여 암호 목록이 다음과 같이 보이도록 할 수 있습니다.
Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

위의 목록에서 첫 번째 암호는 서버의 인증 요청과 일치하는 영역 또는 URL을 포함하는 것입니다. 에 있는 파일 https://www.mysite.com/path1/path2/index.html Realm3 있는 경우라도, name2 그리고 URL로 정의된 암호가 영역에 정의된 암호 위에 나열되기 때문에 password2 사용됩니다.

인증이 필요한 웹 사이트 영역에 액세스하기 위한 암호 추가

암호를 사용하여 검색 및 색인 작업을 위해 웹 사이트의 암호로 보호된 영역에 액세스할 수 있습니다.
암호의 효과가 고객에게 추가되기 전에 사이트 색인을 다시 빌드해야 합니다
인증이 필요한 웹 사이트 영역에 액세스하기 위한 암호를 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Passwords ​클릭합니다.
  2. 페이지의 Passwords 필드에 Passwords 영역 또는 URL과 관련된 사용자 이름 및 암호를 공백으로 구분하여 입력합니다.
    영역 암호 및 별도의 줄에 있는 URL 암호의 예:
    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    
    
    한 줄에 암호를 하나만 추가합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.

컨텐츠 유형 정보

크롤링 Content Types 을 원하는 파일 유형을 선택하고 이 계정에 대해 색인을 지정할 수 있습니다.
크롤링 및 색인화하도록 선택할 수 있는 컨텐츠 유형에는 PDF 문서, 텍스트 문서, Adobe Flash 무비, Word, Excel 및 Powerpoint와 같은 Microsoft Office 애플리케이션의 파일, MP3 파일의 텍스트가 포함됩니다. 선택한 컨텐츠 유형 내에서 발견되는 텍스트는 웹 사이트의 다른 모든 텍스트와 함께 검색됩니다.
고객이 컨텐츠 유형 설정의 효과를 볼 수 있으려면 먼저 사이트 색인을 다시 구성해야 합니다.

MP3 음악 파일 인덱싱 정보

페이지에서 옵션 Text in MP3 Music Files 을 선택하면 Content Types MP3 파일이 두 가지 방법 중 하나로 크롤링 및 인덱싱됩니다. 첫 번째 및 가장 일반적인 방법은 다음과 같이 HTML 파일의 앵커 href 태그에서 온 것입니다.
<a href="MP3-file-URL"></a>

두 번째 방법은 MP3 파일의 URL을 URL 진입점으로 입력하는 것입니다.
MP3 파일은 MIME 형식 "audio/mpeg"에서 인식됩니다.
MP3 음악 파일 크기는 보통 적은 양의 텍스트만 포함되더라도 꽤 클 수 있습니다. 예를 들어 MP3 파일은 앨범 이름, 아티스트 이름, 노래 제목, 노래 장르, 릴리스 연도 및 댓글과 같은 항목을 선택적으로 저장할 수 있습니다. 이 정보는 파일의 맨 끝에 TAG라는 이름으로 저장됩니다. TAG 정보가 포함된 MP3 파일은 다음과 같이 인덱싱됩니다.
  • 노래 제목은 HTML 페이지의 제목과 같이 처리됩니다.
  • 주석은 HTML 페이지에 대해 정의된 설명과 같이 처리됩니다.
  • 이 장르는 HTML 페이지에 대해 정의된 키워드로 취급됩니다.
  • 아티스트 이름, 앨범 이름 및 릴리스 연도는 HTML 페이지의 본문처럼 처리됩니다.
웹 사이트에서 크롤링 및 인덱싱된 각 MP3 파일은 하나의 페이지로 계산됩니다.
웹 사이트에 많은 대용량 MP3 파일이 포함되어 있는 경우 계정에 대한 색인 바이트 제한을 초과할 수 있습니다. 이러한 경우 웹 사이트 Text in MP3 Music Files 에서 모든 MP3 파일을 인덱싱하지 못하도록 Content Types 페이지에서 선택 취소할 수 있습니다.
웹 사이트에서 특정 MP3 파일의 인덱싱을 방지하려는 경우 다음 중 하나를 수행할 수 있습니다.
  • MP3 파일에 연결된 앵커 태그를 <nofollow> </nofollow> 태그로 둘러싸십시오. 검색 로봇은 이러한 태그 사이의 링크를 따르지 않습니다.
  • MP3 파일의 URL을 제외 마스크로 추가합니다.

크롤링 및 색인화할 컨텐츠 유형 선택

크롤링 Content Types 을 원하는 파일 유형을 선택하고 이 계정에 대해 색인을 지정할 수 있습니다.
크롤링 및 색인화하도록 선택할 수 있는 컨텐츠 유형에는 PDF 문서, 텍스트 문서, Adobe Flash 무비, Word, Excel 및 Powerpoint와 같은 Microsoft Office 애플리케이션의 파일, MP3 파일의 텍스트가 포함됩니다. 선택한 컨텐츠 유형 내에서 발견되는 텍스트는 웹 사이트의 다른 모든 텍스트와 함께 검색됩니다.
고객이 컨텐츠 유형 설정의 효과를 볼 수 있으려면 먼저 사이트 색인을 다시 구성해야 합니다.
중국어, 일본어 또는 한국어 MP3 파일을 크롤링 및 색인하려면 아래 단계를 완료하십시오. 그런 다음 Settings > Metadata > Injections ​에서 MP3 파일을 인코딩하는 데 사용되는 문자 집합을 지정합니다.
크롤링 및 색인화할 컨텐츠 유형을 선택하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Content Types ​클릭합니다.
  2. 페이지에서 Content Types 웹 사이트에서 크롤링 및 색인화할 파일 유형을 확인합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.

연결 정보

연결을 사용하여 검색 로봇이 웹 사이트를 색인화하는 데 사용하는 최대 10개의 HTTP 연결을 추가할 수 있습니다.
연결 수를 늘리면 크롤링 및 색인을 완료하는 데 걸리는 시간을 크게 줄일 수 있습니다. 그러나 각 추가 연결은 서버의 로드를 증가시킵니다.

색인 속도를 높이기 위해 연결 추가

연결을 사용하여 크롤러가 사용하는 동시 HTTP 연결 수를 늘려 웹 사이트를 색인화하는 데 걸리는 시간을 줄일 수 있습니다. 최대 10개의 연결을 추가할 수 있습니다.
각 추가 연결은 서버에 배치된 로드를 증가시킵니다.
색인 속도를 높이기 위해 연결을 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Connections ​클릭합니다.
  2. 페이지의 Parallel Indexing Connections Number of Connections 필드에 추가할 연결 수(1-10)를 입력합니다.
  3. 클릭 Save Changes .
  4. (선택 사항) 다음 중 하나를 수행합니다.

양식 제출 정보

양식 제출을 사용하면 웹 사이트에서 양식을 인식하고 처리할 수 있습니다.
웹 사이트의 크롤링 및 색인 작성 동안 발견된 각 양식과 추가한 양식 정의가 비교됩니다. 양식이 양식 정의와 일치하는 경우, 색인화를 위해 양식이 제출됩니다. 양식이 두 개 이상의 정의와 일치하는 경우, 일치하는 각 정의에 대해 양식이 한 번 제출됩니다.

웹 사이트에서 양식 색인화를 위한 양식 정의 추가

색인 작성 Form Submission 을 위해 웹 사이트에서 인식되는 양식을 처리하는 데 사용할 수 있습니다.
고객이 변경 결과를 볼 수 있도록 사이트 색인을 다시 구성해야 합니다.
웹 사이트에서 양식을 인덱싱하기 위한 양식 정의를 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Form Submission ​클릭합니다.
  2. 페이지에서 Form Submission 을 클릭합니다 Add New Form .
  3. 페이지에서 Add Form Definition 및 Form Recognition Form Submission 옵션을 설정합니다.
    페이지의 Form Recognition 섹션 Form Definition 에 있는 5가지 옵션은 처리할 수 있는 웹 페이지의 양식을 식별하는 데 사용됩니다.
    섹션의 세 가지 옵션 Form Submission 은 웹 서버에 양식과 함께 제출되는 매개 변수와 값을 지정하는 데 사용됩니다.
    라인당 하나의 인식 또는 제출 매개 변수를 입력합니다. 각 매개 변수에는 이름과 값이 포함되어야 합니다.
    옵션
    설명
    양식 인식
    페이지 URL 마스크
    양식이 포함된 웹 페이지 또는 페이지를 식별합니다. 단일 페이지에 나타나는 양식을 식별하려면 다음 예제와 같이 해당 페이지의 URL을 입력합니다.
    https://www.mydomain.com/login.html
    여러 페이지에 나타나는 양식을 식별하려면 와일드카드를 사용하여 페이지를 설명하는 URL 마스크를 지정합니다. 예를 들어 ASP 페이지에서 발생하는 양식을 식별하려면 다음을 https://www.mydomain.com/register/ 지정합니다.
    https://www.mydomain.com/register/*.asp&nbsp;
    정규 표현식을 사용하여 여러 페이지를 식별할 수도 있습니다. JavaScript를 regexp 키워드 앞에 있는 URL 마스크
    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$
    작업 URL 마스크
    의 작업 속성을 식별합니다. <form> 태그를 닫기 전에 mbox.js 파일 다음에 선언이 오는지 판별하십시오.
    페이지 URL 마스크와 마찬가지로 작업 URL 마스크는 단일 URL, 와일드카드가 있는 URL 또는 정규 표현식을 취할 수 있습니다.
    URL 마스크는 다음 중 하나일 수 있습니다.
    • 다음과 같은 전체 경로: https://www.mydomain.com/products.html
    • 다음과 같은 부분 경로: https://www.mydomain.com/products
    • 다음과 같이 와일드카드를 사용하는 URL: https://www.mydomain.com/*.html
    • 다음과 같은 정규 표현식. regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$
    URL 마스크 또는 작업 URL 마스크로 식별되는 페이지의 텍스트를 색인화하지 않으려는 경우 또는 이러한 페이지에서 링크를 따라가지 않으려면 인덱스 nofollow 키워드로 사용할 수 있습니다. URL 마스크 또는 진입점을 사용하여 이러한 키워드를 마스크에 추가할 수 있습니다.
    양식 이름 마스크
    양식을 <form> 웹 페이지의 태그에는 name 속성이 포함됩니다.
    간단한 이름( login_form ), 와일드카드( form* ) 또는 정규 표현식( regexp^.*권한 부여*$ .
    일반적으로 양식에 이름 특성이 없으므로 이 필드를 비워 둘 수 있습니다.
    양식 ID 마스크
    양식을 <form> 웹 페이지의 태그에는 id 속성이 포함됩니다.
    간단한 이름( login_form ), 와일드카드( form* ) 또는 정규 표현식( regexp^.*권한 부여*$ .
    일반적으로 양식에 이름 특성이 없으므로 이 필드를 비워 둘 수 있습니다.
    매개 변수
    이름이 지정된 매개 변수 또는 지정된 값이 있는 명명된 매개 변수를 포함하거나 포함하지 않는 양식을 식별합니다.
    예를 들어, rick_brough@mydomain.com에 사전 설정된 암호 매개 변수인 전자 메일 매개 변수가 포함된 양식을 식별하려면 한 줄에 하나씩, 다음 매개 변수 설정을 지정합니다.
    email=rick_brough@mydomain.com password not first-name
    양식 제출
    작업 URL 무시
    양식 제출의 대상이 양식의 작업 속성에 지정된 대상과 다를 때를 지정합니다.
    예를 들어 양식에서 발견되는 것과 다른 URL 값을 구성하는 JavaScript 함수를 통해 양식이 제출될 때 이 옵션을 사용할 수 있습니다.
    메서드 재정의
    양식 제출의 대상이 양식의 action 속성에 사용되는 내용과 다른 시기와 JavaScript 제출을 통해 메서드를 변경한 시기를 지정합니다.
    모든 양식 매개 변수의 기본값( <input> 태그(숨김 필드 포함), <option> from <선택> 태그 및 <textarea>...</textarea> 태그)는 웹 페이지에서 읽습니다. 그러나 [매개 변수] 필드 의 양식 제출 섹션에 나열된 모든 매개 변수는 양식 기본값으로 대체됩니다.
    매개 변수
    양식 제출 매개 변수에 없는 키워드.
    매개 변수에 없는 를 사용하지 않으면 양식 제출의 일부로 제출되지 않습니다. 이 동작은 전송하지 않도록 해야 하는 확인란을 선택하는 데 유용합니다.
    예를 들어 다음 매개 변수를 제출한다고 가정합니다.
    • 값이 있는 전자 메일 매개 변수 nobody@mydomain.com
    • 값이 있는 암호 매개 변수 시험판
    • mycheckbox 매개 변수는 선택 해제입니다.
    • 기타 모두 <form> 매개 변수를 기본값으로 설정
    양식 제출 매개 변수는 다음과 같습니다.
    email=nobody@mydomain.com password=tryme not mycheckbox
    The method attribute of the <form> 웹 페이지의 태그는 GET 메서드 또는 POST 메서드를 사용하여 데이터를 서버로 전송할지 여부를 결정하는 데 사용됩니다.
    첫 번째 날짜를 클릭한 채로 <form> 태그에 메서드 특성이 포함되어 있지 않으므로 GET 메서드를 사용하여 양식이 제출됩니다.
  4. 클릭 Add .
  5. (선택 사항) 다음 중 하나를 수행합니다.

양식 정의 편집

웹 사이트의 양식이 변경되었거나 정의를 변경해야 하는 경우 기존 양식 정의를 편집할 수 있습니다.
양식 정의 History 에 대한 변경 사항을 되돌리는 기능이 Form Submission 페이지에 없습니다.
고객이 변경 결과를 볼 수 있도록 사이트 색인을 다시 구성해야 합니다.
양식 정의를 편집하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Form Submission ​클릭합니다.
  2. 페이지에서 Form Submission 업데이트할 양식 정의 오른쪽 Edit 을 클릭합니다.
  3. 페이지에서 Edit Form Definition 및 Form Recognition Form Submission 옵션을 설정합니다.
    웹 사이트에서 양식을 인덱싱하기 위한 양식 정의 추가 아래의 옵션 표를 참조하십시오 .
  4. 클릭 Save Changes .
  5. (선택 사항) 다음 중 하나를 수행합니다.

양식 정의 삭제

양식이 웹 사이트에 더 이상 존재하지 않거나 특정 양식을 처리 및 색인화하지 않으려는 경우 기존 양식 정의를 삭제할 수 있습니다.
양식 정의 History 에 대한 변경 사항을 되돌리는 기능이 Form Submission 페이지에 없습니다.
고객이 변경 결과를 볼 수 있도록 사이트 색인을 다시 구성해야 합니다.
양식 정의를 삭제하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Form Submission ​클릭합니다.
  2. 페이지에서 Form Submission 제거할 양식 정의 오른쪽 Delete 을 클릭합니다.
    삭제할 올바른 양식 정의를 선택해야 합니다. 다음 단계에서 클릭하면 삭제 확인 대화 상자 Delete 가 없습니다.
  3. 페이지에서 Delete Form Definition 을 클릭합니다 Delete .
  4. (선택 사항) 다음 중 하나를 수행합니다.

색인 커넥터 정보

XML 페이지 Index Connector 를 인덱싱하거나 피드의 종류에 관계없이 추가 입력 소스를 정의하는 데 사용합니다.
데이터 피드 입력 소스를 사용하여 웹 사이트에서 일반적으로 검색된 내용과 다른 양식에 저장된 컨텐츠에 액세스할 수 있습니다. 크롤링 방법은 다음과 같습니다. 크롤링 및 인덱싱된 각 문서는 웹 사이트의 컨텐츠 페이지에 바로 해당합니다. 그러나 데이터 피드는 XML 문서 또는 쉼표 또는 탭으로 구분된 텍스트 파일에서 가져온 후 색인화할 컨텐츠 정보를 포함합니다.
XML 데이터 소스는 개별 문서에 해당하는 정보를 포함하는 XML 표준 또는 레코드로 구성됩니다. 이러한 개별 문서가 색인에 추가됩니다. 텍스트 데이터 피드에는 개별 문서에 해당하는 새 라인으로 구분된 개별 레코드가 포함되어 있습니다. 이러한 개별 문서도 색인에 추가됩니다. 두 경우 모두 색인 커넥터 구성은 피드를 해석하는 방법을 설명합니다. 각 구성은 파일이 있는 위치와 서버가 파일에 액세스하는 방법을 설명합니다. 이 구성에서는 "매핑" 정보도 설명합니다. 즉, 각 레코드의 항목이 결과 인덱스의 메타데이터 필드를 채우는 데 사용되는 방법입니다.
색인 커넥터 정의를 페이지에 추가한 후 이름 또는 유형 값을 Staged Index Connector Definitions 제외한 ** 모든 구성 설정을 변경할 수 있습니다.
이 Index Connector 페이지에는 다음 정보가 표시됩니다.
  • 구성 및 추가한 정의된 인덱스 커넥터의 이름입니다.
  • 추가한 각 커넥터에 대해 다음 데이터 소스 유형 중 하나:
    • 텍스트 - 간단한 "일반" 파일, 쉼표로 구분된 파일, 탭으로 구분된 형식 또는 기타 일관되게 구분된 형식.
    • 피드 - XML 피드.
    • XML - XML 문서 모음.
  • 커넥터가 다음 크롤링 및 색인 작업을 위해 활성화되었는지 여부
  • 데이터 소스의 주소입니다.
색인 커넥터 정보 참조

색인 커넥터의 텍스트 및 피드 구성에 대해 색인 프로세스가 작동하는 방식

단계
프로세스
설명
1
데이터 소스를 다운로드합니다.
텍스트 및 피드 구성의 경우 간단한 파일 다운로드입니다.
2
다운로드한 데이터 소스를 개별 의사 문서로 분류합니다.
텍스트 의 경우, 줄바꿈 구분 텍스트 줄이 개별 문서에 해당하며, 쉼표나 탭과 같은 지정된 구분 기호를 사용하여 구문 분석됩니다.
피드 의 경우 각 문서의 데이터는 다음 양식의 정규 표현식 패턴을 사용하여 추출됩니다.
<${Itemtag}>(.*?)</${Itemtag}>
색인 커넥터 추가 페이지 을 사용하여 캐시된 데이터 복사본을 만든 다음 크롤러 링크 목록을 만듭니다. 데이터는 로컬 캐시에 저장되고 구성된 필드로 채워집니다.
파싱된 데이터는 로컬 캐시에 기록됩니다.
이 캐시는 Crawler에 필요한 간단한 HTML 문서를 만들기 위해 나중에 읽습니다. 예:
<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>
< title> 요소는 제목 메타데이터 필드에 대한 매핑이 있을 때만 생성됩니다. 마찬가지로 <body> 요소는 본문 메타데이터 필드에 매핑이 있을 때만 생성됩니다.
중요 : 사전 정의된 URL 메타 태그에 값 할당을 지원하지 않습니다.
다른 모든 매핑의 경우 <meta> 태그가 원본 문서에서 찾은 데이터가 있는 각 필드에 대해 생성됩니다.
각 문서에 대한 필드가 캐시에 추가됩니다. 캐시에 기록된 각 문서에 대해 다음 예와 같이 링크가 생성됩니다.
<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....
구성의 매핑에는 기본 키로 식별된 필드가 하나만 있어야 합니다. 이 매핑은 캐시에서 데이터를 가져오는 데 사용되는 키를 형성합니다.
크롤러(crawler)는 URL 색인을 인식합니다. 스키마 접두사를 사용합니다.
3
캐시된 문서 집합을 크롤링합니다.
색인: 링크가 크롤러 보류 중인 목록에 추가되고 일반 크롤링 시퀀스에서 처리됩니다.
4
각 문서 처리
각 링크의 키 값은 캐시의 항목에 해당되므로 각 링크를 검색하면 캐시에서 해당 문서의 데이터를 가져옵니다. 그런 다음 HTML 이미지로 "조합"되어 처리되고 색인에 추가됩니다.

색인 커넥터의 XML 구성에 대해 색인 프로세스가 작동하는 방식

XML 구성의 인덱싱 프로세스는 다음과 같은 사소한 변경 사항 및 예외 사항이 있는 텍스트 및 피드 구성 프로세스와 유사합니다.
XML 크롤에 대한 문서는 이미 개별 파일로 분리되어 있으므로 위 표의 1단계와 2단계는 직접 적용되지 않습니다. 페이지의 Host Address 및 필드 File Path 에 URL을 지정하면 Index Connector Add 일반 HTML 문서로 다운로드되고 처리됩니다. 다운로드 문서에는 처리된 XML 문서를 가리키는 <a href="{url}"... 링크 컬렉션이 들어 있습니다. 이러한 링크는 다음 양식으로 변환됩니다.
<a href="index:<ic_config_name>?url="{url}">

예를 들어 Adobe 설정에서 다음 링크를 반환한 경우
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

위의 표에서 3단계는 적용되지 않으며 크롤링 및 색인 작성 시 4단계가 완료됩니다.
또는 크롤링 프로세스를 통해 자연스럽게 발견된 다른 문서와 XML 문서를 혼합할 수 있습니다. 이러한 경우 다시 작성 규칙( Settings > Rewrite Rules > Crawl List Retrieve URL Rules )을 사용하여 XML 문서의 URL을 색인 커넥터에 안내하도록 변경할 수 있습니다.
예를 들어 다음과 같은 다시 작성 규칙이 있다고 가정합니다.
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

이 규칙은 색인 커넥터 링크로 끝나는 모든 URL .xml 을 변환합니다. 크롤러는 index: URL 체계를 인식하고 다시 씁니다. 다운로드 프로세스는 기본 Index Connector Apache 서버를 통해 리디렉션됩니다. 다운로드된 각 문서는 피드에 사용되는 동일한 정규 표현식 패턴을 사용하여 검사됩니다. 그러나 이 경우, 만들어진 HTML 문서는 캐시에 저장되지 않습니다. 대신 색인 처리를 위해 크롤러(crawler)에 직접 전달됩니다.

여러 인덱스 커넥터를 구성하는 방법

모든 계정에 대해 여러 색인 커넥터 구성을 정의할 수 있습니다. 다음 그림과 같이 Settings > Crawl > URL Entrypoints 의 드롭다운 목록에 구성이 자동으로 추가됩니다.
드롭다운 목록에서 구성을 선택하면 URL 시작 지점 목록 끝에 값이 추가됩니다.
비활성화된 색인 커넥터 구성이 드롭다운 목록에 추가되지만 선택할 수 없습니다. 동일한 색인 커넥터 구성을 두 번 선택하면 목록 끝에 추가되고 이전 인스턴스가 삭제됩니다.
증분 크롤에 대한 색인 커넥터 진입점을 지정하려면 다음 형식을 사용하여 항목을 추가할 수 있습니다.
index:<indexconnector_configuration_name>

색인 커넥터 페이지에 있는 각 추가 항목이 발견되고 활성화된 경우 크롤러는 이를 처리합니다.
참고: 각 문서의 URL은 색인 커넥터 구성 이름과 문서의 기본 키를 사용하여 구성되므로 증분 업데이트를 수행할 때 동일한 색인 커넥터 구성 이름을 사용해야 합니다. 이렇게 하면 이전에 인덱싱된 문서 Adobe Search&Promote 를 올바르게 업데이트할 수 있습니다.
색인 커넥터를 추가할 때 설정 맵 사용
색인 커넥터를 추가할 때 이 기능을 사용하여 데이터 소스의 샘플 Setup Maps 을 다운로드할 수도 있습니다. 색인화 적합성에 대해 데이터가 검토됩니다.
색인 커넥터 유형을 선택한 경우..
설정 맵 기능..
텍스트
탭을 먼저 시도한 다음 세로 막대( | ) 및 쉼표( , )를 만듭니다. 설정 맵을 클릭하기 전에 이미 구분 기호 값 을 지정한 경우 해당 값 이 대신 사용됩니다.
최적의 구성표는 맵 필드가 적절한 태그 및 필드 값에 대한 추측으로 채워지는 결과를 가져옵니다. 또한 파싱된 데이터의 샘플링이 표시됩니다. 파일에 머리글 행 이 포함되어 있는 경우 첫 번째 행에서 머리글을 선택해야 합니다. 설정 함수는 이 정보를 사용하여 결과 맵 항목을 더 잘 식별합니다.
피드
데이터 소스를 다운로드하고 간단한 XML 파싱을 수행합니다.
결과 XPath 식별자는 맵 테이블의 태그 행에 표시되며, 필드 값도 유사합니다. 이러한 행은 사용 가능한 데이터만 식별하고 더 복잡한 XPath 정의를 생성하지 않습니다. 그러나 XML 데이터를 설명하고 Itemtag 값을 식별하므로 여전히 유용합니다.
참고: 설정 맵 함수는 분석을 수행하기 위해 전체 XML 소스를 다운로드합니다. 파일이 크면 이 작업이 시간 초과될 수 있습니다.
이 기능은 모든 가능한 XPath 항목을 식별하는데, 이 항목 중 많은 항목을 사용하기 어렵습니다. 결과 맵 정의를 검사하고 필요 없거나 원하지 않는 정의를 제거해야 합니다.
XML
기본 링크 목록이 아니라 대표 개별 문서의 URL을 다운로드합니다. 이 단일 문서는 피드와 함께 사용되는 동일한 메커니즘을 사용하여 구문 분석되며 결과가 표시됩니다.
[ 추가] 를 클릭하여 구성을 저장하기 전에 URL을 다시 기본 링크 목록 문서로 변경해야 합니다.
중요 : 파일 구문 분석기가 전체 파일을 메모리로 읽으려고 하므로 대형 XML 데이터 세트에서 설정 맵 기능을 사용할 수 없습니다. 그 결과 메모리 부족 상태가 발생할 수 있습니다. 하지만 색인 작성 시 동일한 문서를 처리할 때 메모리로 읽히지 않습니다. 대신 대용량 문서는 "이동 중"에 처리되고 메모리로 완전히 읽지 않습니다.
색인 커넥터를 추가할 때 미리 보기 사용
색인 커넥터를 추가할 때 저장 중인 것처럼 이 기능을 사용하여 데이터 Preview 의 유효성을 확인할 수도 있습니다. 구성에 대해 테스트를 실행하지만 구성을 계정에 저장하지 않습니다. 테스트는 구성된 데이터 소스에 액세스합니다. 그러나 다운로드 캐시가 임시 위치에 기록됩니다. 색인 크롤러가 사용하는 기본 캐시 폴더와 충돌하지 않습니다.
미리 보기는 Acct:IndexConnector-Preview-Max-Documents에 의해 제어되는 5개의 문서 기본값으로 처리만 합니다. 미리 본 문서는 색인 크롤러에 표시될 때 소스 양식으로 표시됩니다. 이 디스플레이는 웹 브라우저의 "소스 보기" 기능과 유사합니다. 표준 탐색 링크를 사용하여 미리 보기 세트에서 문서를 탐색할 수 있습니다.
이러한 문서는 직접 처리되고 캐시에 다운로드되지 않으므로 미리 보기는 XML 구성을 지원하지 않습니다.

색인 커넥터 정의 추가

각 색인 커넥터 구성은 데이터 소스 및 매핑을 정의하여 해당 소스에 대해 정의된 데이터 항목을 인덱스의 메타데이터 필드에 연결합니다.
새 정의 및 활성화된 정의가 고객에게 표시되기 전에 사이트 색인을 다시 작성합니다.
색인 커넥터 정의를 추가하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지에서 Stage Index Connector Definitions 을 클릭합니다 Add New Index Connector .
  3. 페이지에서 원하는 커넥터 옵션을 Index Connector Add 설정합니다. 사용 가능한 옵션은 선택한 옵션에 따라 Type 다릅니다.
    옵션
    설명
    이름
    색인 커넥터 구성의 고유한 이름입니다. 영숫자를 사용할 수 있습니다. "_" 및 "-" 문자도 허용됩니다.
    유형
    데이터 소스 선택하는 데이터 소스 유형은 [색인 커넥터 추가] 페이지에서 사용할 수 있는 결과 옵션에 영향을 줍니다. 다음 중에서 선택할 수 있습니다.
    • 텍스트
      간단한 일반 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분 또는 기타 일관적으로 구분된 형식. 각 줄바꿈 구분 텍스트 줄은 개별 문서에 해당하며 지정된 구분 기호를 사용하여 파싱됩니다.
      열 번호에서 참조하는 각 값 또는 열을 1부터 메타데이터 필드에 매핑할 수 있습니다.
    • 피드
      여러 개의 "행" 정보가 포함된 기본 XML 문서를 다운로드합니다.
    • XML
      링크가 포함된 기본 XML 문서를 다운로드합니다( <a> ) to individual XML documents.
    데이터 소스 유형: 텍스트
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜짐"으로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 색인 작업을 방지할 수 있습니다.
    참고 : 비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터가 있는 서버 호스트의 주소를 지정합니다.
    원하는 경우 다음 예와 같이 데이터 소스 문서의 전체 URI(Uniform Resource Identifier) 경로를 지정할 수 있습니다.
    https://www.somewhere.com/some_path/some_file.xml
    또는
    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml
    URI는 호스트 주소, 파일 경로, 프로토콜 및 선택적으로 사용자 이름 및 암호 필드에 적합한 항목으로 분류됩니다.
    데이터 소스 파일이 있는 호스트 시스템의 IP 주소 또는 URL 주소를 지정합니다.
    파일 경로
    간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분 또는 기타 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    증분 파일 경로
    간단한 플랫 텍스트 파일, 쉼표로 구분된 파일, 탭으로 구분 또는 기타 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 파일을 지정하지 않으면 파일 경로 아래에 나열된 파일이 대신 사용됩니다.
    세로 파일 경로
    세로 업데이트 중에 사용할 간단한 플랫 텍스트 파일, 쉼표로 구분, 탭으로 구분 또는 기타 일관적으로 구분된 형식 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 세로 업데이트 작업 중에 다운로드 및 처리됩니다.
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    파일 경로 삭제
    행당 단일 문서 식별자 값을 포함하는 간단한 플랫 텍스트 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 이 파일에 있는 값은 이전에 인덱싱된 문서를 제거하기 위해 "삭제" 요청을 구성하는 데 사용됩니다. 이 파일의 값은 기본 키로 식별된 열에 있는 전체 또는 증분 파일 경로 파일에 있는 값과 일치해야 합니다 .
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    시간 초과
    FTP, SFTP, HTTP 또는 HTTPS 연결에 대한 시간 초과(초)를 지정합니다. 이 값은 30에서 300 사이여야 합니다.
    재시도
    실패한 FTP, SFTP, HTTP 또는 HTTPS 연결에 대한 최대 재시도 횟수를 지정합니다. 이 값은 0에서 10 사이여야 합니다.
    값 0을 지정하면 다시 시도하지 않습니다.
    인코딩
    지정된 데이터 소스 파일에서 사용되는 문자 인코딩 시스템을 지정합니다.
    구분 기호
    지정된 데이터 소스 파일의 각 필드를 지정하는 데 사용할 문자를 지정합니다.
    쉼표 문자( , )는 구분 기호의 예입니다. 쉼표는 지정된 데이터 소스 파일에서 데이터 필드를 구분하는 데 도움이 되는 필드 구분 기호 역할을 합니다.
    탭을 선택하십시오. 를 클릭하여 가로 탭 문자를 구분 기호로 사용합니다.
    첫 번째 행의 머리글
    데이터 소스 파일의 첫 번째 행에 데이터가 아닌 헤더 정보만 포함됨을 나타냅니다.
    색인화를 위한 최소 문서 수
    양수 값으로 설정된 경우 다운로드한 파일에 필요한 최소 레코드 수를 지정합니다. 수신되는 레코드 수가 적으면 색인 작업이 중단됩니다.
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    참고 : 이 기능은 전체 색인 작업 중에만 사용됩니다.
    열 번호를 사용하여 열-메타데이터 매핑을 지정합니다.
    • 열 번호를 지정합니다. 첫 번째 열은 1입니다. 각 열에 대한 새 맵 행을 추가하려면 작업 아래에서 + 클릭합니다 .
      데이터 소스의 각 열을 참조할 필요는 없습니다. 대신 값을 건너뛰도록 선택할 수 있습니다.
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값을 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 됩니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드일 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용하는 내용을 만드는 데 유용합니다 .
      스크립트 필터링 정보를 참조하십시오 .
      색인 커넥터가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 정의된 첫 번째 구분 기호인 필드의 목록 구분 기호 값이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 색인에 이 문서를 추가할 때 나타나는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 중본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드가 함께 합쳐서 고유한 식별자를 만들 있는 경우, 여러 개의 기본 키 열을 세로 막대("|") 값과 구분해서 기본 키 를 정의할 수 있습니다 .
    • HTML 제거?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행의 순서는 중요하지 않습니다.
    데이터 소스 유형: 피드
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜짐"으로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 색인 작업을 방지할 수 있습니다.
    참고 : 비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터 소스 파일이 있는 호스트 시스템의 IP 주소 또는 URL 주소를 지정합니다.
    파일 경로
    여러 개의 "행" 정보를 포함하는 기본 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    증분 파일 경로
    여러 개의 "행" 정보를 포함하는 증분 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 파일을 지정하지 않으면 파일 경로 아래에 나열된 파일이 대신 사용됩니다.
    세로 파일 경로
    세로 업데이트 중에 사용할 여러 가지 정보의 스파스 "행"이 포함된 XML 문서의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 세로 업데이트 작업 중에 다운로드 및 처리됩니다.
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    파일 경로 삭제
    행당 단일 문서 식별자 값을 포함하는 간단한 플랫 텍스트 파일의 경로를 지정합니다.
    경로는 호스트 주소의 루트에 상대적입니다.
    이 파일은 지정된 경우 증분 색인 작업 중에 다운로드 및 처리됩니다. 이 파일에 있는 값은 이전에 인덱싱된 문서를 제거하기 위해 "삭제" 요청을 구성하는 데 사용됩니다. 이 파일의 값은 기본 키로 식별된 열에 있는 전체 또는 증분 파일 경로 파일에 있는 값과 일치해야 합니다 .
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    Itemtag
    지정한 데이터 소스 파일에서 개별 XML 행을 식별하는 데 사용할 수 있는 XML 요소를 식별합니다.
    예를 들어 Adobe XML 문서의 다음 피드 조각에서 Itemtag 값은 레코드입니다 .
    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_air.png"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/ dbreferenced/marketplaceicons/icn_photoshop.png"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>
    색인화를 위한 최소 문서 수
    양수 값으로 설정된 경우 다운로드한 파일에 필요한 최소 레코드 수를 지정합니다. 수신되는 레코드 수가 적으면 색인 작업이 중단됩니다.
    참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    참고 : 이 기능은 전체 색인 작업 중에만 사용됩니다.
    XPath 표현식을 사용하여 XML-요소-메타데이터 매핑을 지정할 수 있습니다.
    • 태그
      파싱된 XML 데이터의 XPath 표현을 지정합니다. 위의 예제 Adobe XML 문서를 사용하여 Itemtag 옵션 아래에서 다음 구문을 사용하여 매핑할 수 있습니다.
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      위의 구문은 다음과 같이 해석됩니다.
      • /record/@displayurl&nbsp;->&nbsp;page-url
        레코드 요소의 displayurl 속성은 메타데이터 필드 페이지-url에 매핑됩니다 .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        이름 속성이 Title인 레코드 요소 내에 들어 있는 메타데이터 요소 내에 들어 있는 모든 메타 요소 의 컨텐트 속성 은 메타데이터 필드 제목에 매핑됩니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        이름 속성이 설명 인, cname 속성이 Cutlc인, cedc에 매핑되는, came 요소 내에 들어 있는, 메타데이터 요소 내에 들어 있는 모든 메타 요소 의 컨텐트 속성입니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        이름 속성이 설명인 Cumulative에 포함된 레코드 요소 내에 포함된 메타데이터 요소 의 컨텐트 속성 은 메타데이터 필드 본문에 매핑됩니다.
      XPath는 비교적 복잡한 표기법입니다. 자세한 내용은 다음 위치에서 확인할 수 있습니다.
      https://www.w3schools.com/xpath/을 참조하십시오
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 됩니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드일 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용하는 내용을 만드는 데 유용합니다 .
      스크립트 필터링 정보를 참조하십시오 .
      색인 커넥터가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 정의된 첫 번째 구분 기호인 필드의 목록 구분 기호 값이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 색인에 이 문서를 추가할 때 나타나는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 중본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드가 함께 합쳐서 고유한 식별자를 만들 있는 경우, 여러 개의 기본 키 정의를 세로 막대("|") 값과 구분해서 기본 키 를 정의할 수 있습니다 .
    • HTML 제거?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 삭제에 사용하시겠습니까?
      증분 색인 작업 중에 사용됨, 이 XPath 패턴과 일치하는 레코드를 사용하여 삭제할 항목을 식별합니다. 이러한 각 레코드에 대한 기본 키 값은 파일 경로 삭제와 같이 "삭제" 요청을 구성하는 데 사용됩니다.
      참고 : 이 기능은 기본적으로 활성화되어 있지 않습니다. 해당 기능을 활성화하려면 기술 지원 센터에 문의하십시오.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행의 순서는 중요하지 않습니다.
    데이터 소스 유형: XML
    활성화됨
    크롤링 및 색인을 위해 구성을 "켜짐"으로 설정합니다. 또는 구성을 "해제"하여 크롤링 및 색인 작업을 방지할 수 있습니다.
    참고 : 비활성화된 색인 커넥터 구성은 진입점 목록에 있으면 무시됩니다.
    호스트 주소
    데이터 소스 파일이 있는 호스트 시스템의 URL 주소를 지정합니다.
    파일 경로
    링크를 포함하는 기본 XML 문서의 경로를 지정합니다( <a> ) to individual XML documents.
    경로는 호스트 주소의 루트에 상대적입니다.
    프로토콜
    파일에 액세스하는 데 사용되는 프로토콜을 지정합니다. 다음 중에서 선택할 수 있습니다.
    • HTTP
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTP 서버에 액세스할 수 있습니다.
    • HTTPS
      필요한 경우 적절한 인증 자격 증명을 입력하여 HTTPS 서버에 액세스할 수 있습니다.
    • FTP
      FTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • SFTP
      SFTP 서버에 액세스하려면 적절한 인증 자격 증명을 입력해야 합니다.
    • 파일
    참고 : 프로토콜 설정은 호스트 주소 및/또는 파일 경로 필드에 지정된 정보가 있는 경우에만 사용됩니다. 개별 XML 문서는 URL 사양에 따라 HTTP 또는 HTTPS를 사용하여 다운로드됩니다.
    Itemtag
    지정한 데이터 소스 파일에서 "행"을 정의하는 XML 요소를 식별합니다.
    열 번호를 사용하여 열-메타데이터 매핑을 지정할 수 있습니다.
    • 태그
      파싱된 XML 데이터의 XPath 표현을 지정합니다. 위의 예제 Adobe XML 문서의 Itemtag 옵션에서 다음 구문을 사용하여 매핑할 수 있습니다.
      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body
      위의 구문은 다음과 같이 해석됩니다.
      • /record/@displayurl&nbsp;->&nbsp;page-url
        레코드 요소의 displayurl 속성은 메타데이터 필드 페이지-url에 매핑됩니다 .
      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title
        이름 속성이 Title인 레코드 요소 내에 들어 있는 메타데이터 요소 내에 들어 있는 모든 메타 요소 의 컨텐트 속성 은 메타데이터 필드 제목에 매핑됩니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc
        이름 속성이 설명 인, cname 속성이 Cutlc인, cedc에 매핑되는, came 요소 내에 들어 있는, 메타데이터 요소 내에 들어 있는 모든 메타 요소 의 컨텐트 속성입니다.
      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body
        이름 속성이 설명인 Cumulative에 포함된 레코드 요소 내에 포함된 메타데이터 요소 의 컨텐트 속성 은 메타데이터 필드 본문에 매핑됩니다.
      XPath는 비교적 복잡한 표기법입니다. 자세한 내용은 다음 위치에서 확인할 수 있습니다.
      https://www.w3schools.com/xpath/을 참조하십시오
    • 필드
      생성된 각 <meta> 태그에 사용되는 이름 속성 값을 정의합니다.
    • 메타데이터?
      필드가 현재 계정에 대해 정의된 메타데이터 필드를 선택할 수 있는 드롭다운 목록이 됩니다.
      원하는 경우 필드 값은 정의되지 않은 메타데이터 필드일 수 있습니다. 정의되지 않은 메타데이터 필드는 필터링 스크립트에서 사용하는 내용을 만드는 데 유용합니다 .
      스크립트 필터링 정보를 참조하십시오 .
      색인 커넥터가 맵 필드에 여러 개의 히트가 있는 XML 문서를 처리할 때 여러 값이 캐시된 결과 문서의 단일 값으로 연결됩니다. 기본적으로 이러한 값은 쉼표 구분 기호를 사용하여 결합됩니다. 그러나 해당 필드 값이 정의된 메타데이터 필드라고 가정합니다. 또한 이 필드에는 목록 허용 속성이 설정되어 있습니다. 이 경우, 정의된 첫 번째 구분 기호인 필드의 목록 구분 기호 값이 연결에서 사용됩니다.
    • 기본 키?
      하나의 맵 정의만 기본 키로 식별됩니다. 이 필드는 색인에 이 문서를 추가할 때 나타나는 고유한 참조가 됩니다. 이 값은 색인의 문서 URL에 사용됩니다.
      기본 값은 색인 커넥터 구성으로 표시된 모든 문서에서 고유해야 합니다. 발견된 모든 중본은 무시됩니다. 소스 문서에 기본 키로 사용할 단일 고유 값이 포함되어 있지 않지만, 두 개 이상의 필드가 함께 합쳐서 고유한 식별자를 만들 있는 경우, 여러 개의 기본 키 정의를 세로 막대("|") 값과 구분해서 기본 키 를 정의할 수 있습니다 .
    • HTML 제거?
      이 옵션을 선택하면 이 필드의 데이터에 있는 모든 HTML 태그가 제거됩니다.
    • 작업
      맵에 행을 추가하거나 맵에서 행을 제거할 수 있습니다. 행의 순서는 중요하지 않습니다.
  4. (선택 사항) 데이터 소스 Setup Maps 의 샘플을 다운로드하려면 을(를) 클릭합니다. 색인화 적합성에 대해 데이터가 검토됩니다. 이 기능은 텍스트 및 피드 유형에만 사용할 수 있습니다.
  5. (선택 사항) 구성 Preview 의 실제 작업을 테스트하려면 을 클릭합니다. 이 기능은 텍스트 및 피드 유형에만 사용할 수 있습니다.
  6. 페이지 Add 와 Index Connector Definitions 페이지의 Index Connector Configurations URL Entrypoints 드롭다운 목록에 구성을 추가하려면 클릭합니다.
  7. 페이지에서 Index Connector Definitions 을 클릭합니다 rebuild your staged site index .
  8. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.

색인 커넥터 정의 편집

정의한 기존 색인 커넥터를 편집할 수 있습니다.
색인 커넥터 이름(Index Connector Name) 또는 유형( Type Type)과 같은 일부 옵션을 변경할 수 없습니다.
색인 커넥터 정의를 편집하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지의 Index Connector 열 머리글 Actions 아래에서 설정을 변경할 색인 커넥터 정의 이름 Edit 을 클릭합니다.
  3. 페이지에서 Index Connector Edit 원하는 옵션을 설정합니다.
  4. 클릭 Save Changes .
  5. (선택 사항) Index Connector Definitions 페이지에서 을 클릭합니다 rebuild your staged site index .
  6. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.

색인 커넥터 정의 설정 보기

기존 색인 커넥터 정의의 구성 설정을 검토할 수 있습니다.
색인 커넥터 정의를 페이지에 추가한 후에는 Index Connector Definitions 해당 유형 설정을 변경할 수 없습니다. 대신 정의를 삭제한 다음 새로 추가해야 합니다.
색인 커넥터 정의 설정을 보려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지의 Index Connector 열 제목 Actions 아래에서 Edit 설정을 검토하거나 편집할 색인 커넥터 정의 이름을 클릭합니다.

색인 커넥터 정의 복사

기존 색인 커넥터 정의를 복사하여 만들려는 새 색인 커넥터에 대한 기초로 사용할 수 있습니다.
색인 커넥터 정의를 복사할 때 기본적으로 복사된 정의는 비활성화됩니다. 정의를 활성화하거나 "켜기"하려면 페이지에서 정의를 편집하고 Index Connector Edit 선택해야 합니다 Enable .
색인 커넥터 정의를 복사하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지의 Index Connector 열 머리글 Actions 아래에서 설정을 복제할 색인 커넥터 정의 이름 Copy 을 클릭합니다.
  3. 페이지에서 Index Connector Copy 정의의 새 이름을 입력합니다.
  4. 클릭 Copy .
  5. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.

색인 커넥터 정의 이름 바꾸기

기존 색인 커넥터 정의의 이름을 변경할 수 있습니다.
정의의 이름을 변경한 후 Settings > Crawling > 를 URL Entrypoints ​선택합니다. 새 정의 이름이 URL Entrypoints 페이지의 드롭다운 목록에 반영되도록 해야 합니다.
색인 커넥터 정의 이름을 변경하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지의 Index Connector 열 머리글 Actions 아래에서 Rename 변경할 색인 커넥터 정의 이름을 클릭합니다.
  3. 페이지의 Index Connector Rename 필드에 새 정의 이름을 Name 입력합니다.
  4. 클릭 Rename .
  5. 클릭 Settings > Crawling > URL Entrypoints . 이전 색인 커넥터 이름이 목록에 있으면 제거한 다음 새로 이름이 변경된 항목을 추가합니다.
    인덱싱할 여러 URL 시작 지점 추가를 참조하십시오 . 1. (선택 사항) Index Connector Definitions 페이지에서 다음 중 하나를 수행합니다.

색인 커넥터 정의 삭제

더 이상 필요하거나 사용하지 않는 기존 색인 커넥터 정의를 삭제할 수 있습니다.
색인 커넥터 정의를 삭제하려면
  1. 제품 메뉴에서 Settings > Crawling > 를 Index Connector ​클릭합니다.
  2. 페이지의 Index Connector Definitions 열 머리글 Actions 아래에서 제거할 색인 커넥터 정의 이름 Delete 을 클릭합니다.
  3. 페이지에서 Index Connector Delete 을 클릭합니다 Delete .