Return-Path: X-Original-To: apmail-manifoldcf-commits-archive@www.apache.org Delivered-To: apmail-manifoldcf-commits-archive@www.apache.org Received: from mail.apache.org (hermes.apache.org [140.211.11.3]) by minotaur.apache.org (Postfix) with SMTP id E88D4115A8 for ; Sun, 10 Aug 2014 07:46:17 +0000 (UTC) Received: (qmail 92145 invoked by uid 500); 10 Aug 2014 07:46:17 -0000 Delivered-To: apmail-manifoldcf-commits-archive@manifoldcf.apache.org Received: (qmail 92093 invoked by uid 500); 10 Aug 2014 07:46:17 -0000 Mailing-List: contact commits-help@manifoldcf.apache.org; run by ezmlm Precedence: bulk List-Help: List-Unsubscribe: List-Post: List-Id: Reply-To: dev@manifoldcf.apache.org Delivered-To: mailing list commits@manifoldcf.apache.org Received: (qmail 92084 invoked by uid 99); 10 Aug 2014 07:46:17 -0000 Received: from nike.apache.org (HELO nike.apache.org) (192.87.106.230) by apache.org (qpsmtpd/0.29) with ESMTP; Sun, 10 Aug 2014 07:46:17 +0000 X-ASF-Spam-Status: No, hits=-2000.0 required=5.0 tests=ALL_TRUSTED X-Spam-Check-By: apache.org Received: from [140.211.11.4] (HELO eris.apache.org) (140.211.11.4) by apache.org (qpsmtpd/0.29) with ESMTP; Sun, 10 Aug 2014 07:45:46 +0000 Received: from eris.apache.org (localhost [127.0.0.1]) by eris.apache.org (Postfix) with ESMTP id D557123889DA; Sun, 10 Aug 2014 07:45:42 +0000 (UTC) Content-Type: text/plain; charset="utf-8" MIME-Version: 1.0 Content-Transfer-Encoding: 8bit Subject: svn commit: r1617058 [2/8] - in /manifoldcf/trunk: connectors/rss/connector/src/main/native2ascii/org/apache/manifoldcf/crawler/connectors/rss/ framework/ui-core/src/main/native2ascii/org/apache/manifoldcf/ui/i18n/ site/src/documentation/content/xdocs/... Date: Sun, 10 Aug 2014 07:45:41 -0000 To: commits@manifoldcf.apache.org From: mingchun@apache.org X-Mailer: svnmailer-1.0.9 Message-Id: <20140810074542.D557123889DA@eris.apache.org> X-Virus-Checked: Checked by ClamAV on apache.org Added: manifoldcf/trunk/site/src/documentation/content/xdocs/zh_CN/end-user-documentation.xml URL: http://svn.apache.org/viewvc/manifoldcf/trunk/site/src/documentation/content/xdocs/zh_CN/end-user-documentation.xml?rev=1617058&view=auto ============================================================================== --- manifoldcf/trunk/site/src/documentation/content/xdocs/zh_CN/end-user-documentation.xml (added) +++ manifoldcf/trunk/site/src/documentation/content/xdocs/zh_CN/end-user-documentation.xml Sun Aug 10 07:45:35 2014 @@ -0,0 +1,1364 @@ + + + + + +
ManifoldCF- 终端用户手册
+ + + + +
+ 概要 +

本手册面向使用ManifoldCF的终端用户。前提条件为已安装并设置ManifoldCF框架,正常启动所有必要的服务,正确注册要使用的连接类型。如手动执行上述操作,请参照[开发人员资源]页。 +

+

本手册主要说明ManifoldCF的用户界面及其使用方法。在缺省设置下,在Web浏览器打开URL:http://my-server-name:8345/mcf-crawler-ui。在非缺省设置下,URL会发生变化,请咨询系统管理员。 +

+

ManifoldCF的用户界面在Firefox和IE通过测试。使用别的Web浏览器可能无法正常运行。如无法正常运行,请联系系统管理员。

+

从Web网页打开上述URL,将会看到如下页面:

+

+
+

+

左侧为菜单,右侧显示欢迎页。选择左侧菜单项,右侧会显示相应的内容。建议在进入设置之前,先过目下述说明并理解ManifoldCF的概要。 +

+
+ 输出连接器的定义 +

左侧菜单包含用来输出爬取文档的输出连接器列表。在很多场合下,将输出到搜索引擎。

+

所有作业必须要指定输出连接。要指定输出连接,请从左侧菜单选择[输出连接列表]。将会看到如下页面:

+

+
+

+

初次使用时,输出连接还未定义。如已定义输出连接,会显示在列表中。可通过输出连接左端的[显示],[编辑],[删除]链接,显示、编辑、删除设置内容。要定义新输出连接,单击列表下方的[添加新输出连接]。将会看到如下页面:

+

+
+

+

输出连接上方的标签是输出连接的属性群。根据不同的连接类型标签也有所不同。

+

首先,输入连接的名称和说明。输出连接名用来识别连接,无需具有唯一性。注意,一经设置就无法修改。名称不能超过32个字符,说明不应超出255字符。输入完毕,请选择[类型]标签。将会看到如下页面:

+

+
+

+

选择[连接类型]下拉菜单,会显示输出连接列表。列表中所显示的输出连接器及其名称,会根据安装设置Apache ManifoldCF的系统集成而有所不同。显示标签,随所选连接类型发生变化。后续章节会说明标签设置内容。

+

从下拉列表选择输出连接类型,单击[下一个]按钮。会显示输出连接定义所需属性的标签。页下显示[保存]按钮。生成连接时必须要单击此[保存]按钮。放弃设置内容时,单击[取消]按钮或选择左菜单项目。

+

所有输出连接类型附上[限流器链接]标签。选择后会显示如下页面:

+

+
+

+

此页仅有一个项目:系统使用此输出连接时的最大连接数。可调整系统负荷,根据版权限制连接数。设置值越大,吞吐量也增大。所有连接类型的缺省值为10,但根据输出连接和类型此值或许并非为最佳值。关于详情,参阅后续各种输出连接和类型的说明。

+

保存连接,会显示所设置的内容和连接状态。连接设置正确时,状态为[正常]。设置有误时,显示错误。出错时,请修改设置。

+
+
+ 定义权限连接 +

从左侧菜单选择[权限列表],会显示权限连接列表。权限连接,用来连接到具有特定安全环境的系统。比如,访问由ActiveDirectory管理的文件时,需定义ActiveDirectory权限连接。

+

仅爬去公开文档时,无需定义权限连接,比如爬去互联网上无需认证任何人均可参阅的Web网页, RSS, Wiki。相反,搜索公司内部文档时,多数需要用户认证,需定义权限连接。

+

在定义存储库连接之前先定义权限连接。虽过后也可以改变存储库连接和权限连接的关系,但有可能需要重新爬去文档。

+

要定义权限连接,从右側菜单から[权限列表]を选择请。选择如会显示如下页面:

+

+
+

+

初次使用时,权限连接还未定义。权限连接已定义时,会显示列表。权限连接左方显示[显示],[编辑],[删除]链接,用来显示,编辑或删除设置。定义新权限连接时,选择列表下方[添加新权限连接]链接。选择后会显示如下页面:

+

+
+

+

上面显示的标签为权限连接的属性群。随连接类型显示标签有所不同。

+

首先,输入连接名称和说明。权限连接名用来区分连接,故需要唯一。注意,一经设置就无法改变。名称最长为32字符,说明最长为255字符。输入后单击[类型]标签。会显示如下页面:

+

+
+

+

选择连接类型和下拉列表,会显示权限连接列表。列表显示的权限连接器及名称,根据安装设置Apache ManifoldCF的系统集成会有所不同。显示标签,根据所选连接类型发生变化。后续章节说明标签设置内容。

+

从下拉列表选择权限连接类型,单击[下一个]按钮。会显示所选权限连接定义所需属性的标签。另,页下显示[保存]按钮。生成连接时必须要单击此[保存]按钮。放弃设置内容时,单击[取消]按钮或左方菜单项。

+

所有输出连接类型有[限流器链接]标签。选择后会显示如下页面:

+

+
+

+

此页仅有一个项目:系统使用此输出连接时的最大连接数。可调整系统负荷,根据版权限制连接数。值越大,吞吐量也增大。所有连接类型的缺省值为10,随输出连接和类型此值并非最佳。关于详情,参阅后续各输出连接和类型说明。

+

关于连接类型标签的详情,参阅关于权限连接和类型所显示标签的说明。

+

保存连接,会显示所设连接内容页和连接状态。连接正确设置时,状态为[正常]。设置有误时,显示错误。显示出错信息时,请修改设置内容。

+ +
+
+ 定义存储库连接 +

从左侧菜单选择[存储库列表],看到存储库连接列表。存储库连接是指向保存要生成索引文档的存储库的连接。 +它被要求能够连接到备特定安全环境的系统。比如,访问ActiveDirectory管理的文件时,需定义ActiveDirectory权限连接。

+

所有作业需指定存储库连接。作业从指定存储库连接读入文档。在定义用以从文档生成索引的作业之前,先生成存储库连接。

+

还可以在存储库连接指定权限连接。权限连接用来指定存储库连接所读取文档的安全环境。还可以在爬虫执行后修改存储库连接所对应的权限连接,但必须重新读入存储库连接的所有对象文档并重建索引。因此,建议在定义存储库连接之前定义权限连接。限流器链接

+

要定义存储库连接,从左侧菜单选择[存储库连接列表]。将看到如下页面:

+

+
+

+

开始使用时,存储库连接尚未定义。存储库连接已定义时,会显示列表。选择存储库连接的左端显示的[显示],[编辑],[删除]链接显示设置内容,可编辑或删除。定义存储库输出连接时,选择列表下方[添加新存储库连接]链接。会显示如下页面:

+

+
+

+

上方显示的标签时存储库连接的属性。根据连接类型会显示不同标签。

+

首先,输入连接的名称和说明。存储库连接名用来识别连接,应具唯一性。另,一经设置就无法更改。名称最长为32字符,说明最长为255字符。输入后,选择[类型]标签,会显示如下页面:

+

关于连接类型标签的详细信息,请参阅权限连接和类型所显示标签的说明。 +
+

+

选择连接类型和下拉列表,会显示存储库连接列表。列表显示的存储库连接器及名称,根据安装设置Apache ManifoldCF的系统集成会有所不同。显示的标签,根据所选择的连接类型而变化。后续内容将说明标签设置。

+

还可以指定从存储库读取文档的权限信息。权限连接有时会依赖于存储库连接。详情请参阅所使用存储库连接及权限连接的说明。

+

选择存储库连接类型和权限连接后选择[下一个]按钮。会显示定义所选存储库连接所需属性的标签。另外,页面下方显示[保存]按钮。生成连接时必须要单击[保存]按钮。取消设置内容时,单击[取消]按钮或左方菜单项。

+

所有输出连接类型具有[限流器链接]标签。选择后会显示如下页面:

+

+
+

+

此页有两个项目:首先,系统可以使用此输出连接的最大连接数。从而,可调整系统负荷,或根据版权限制而限制连接数。该值过大时,吞吐量会上升。所有连接类型的缺省值为10,根据输出连接和类型此值或许不是最适值。关于详细信息,参阅后续各种输出连接和类型的说明。其二,爬虫使用此连接时,可以以多大平均速度读取文档。

+

可为每一个连接设置[限流器bin]。限流器bin是用来显示读取频度的资源名称。比如,Web连接可为每一个HTTP服务器名指定限流器bin。由此,可按HTTP服务器名指定文档读取频度。

+

从存储库连接的[限流器链接]标签可定义无限的限流器链接设置。按限流器链接设置指定限流器bin集的正则表达式,说明文,并为每一个正则表达式指定相应的限流器bin平均读取频度。当限流器bin和一个以上限流器链接设置匹配时,选择最不使用资源的读取设置设为有效

+

最为简单的正则表达式为空表达式。此时所有限流器bin与之匹配。当在连接指定缺省限流器设置可使用此方法。指定平均读取率,请单击[添加]按钮,显示如下限流器链接标签:

+

+
+

+

限流器未设置时,文档读取不会被限制。

+

关于连接类型的标签,请参阅根据存储库连接和类型所显示标签的说明。

+ +

保存连接,会显示所设置连接的内容。连接状态亦会显示。连接被正确设置时,状态显示为[正常]。设置有误时,会显示错误。出错时,请修改设置。

+ +
+
+ 生成作业 +

ManifoldCF的[作业],指读取文档的集合。ManifoldCF通过存储库连接读取所指定的文档集,并写入指定的输出连接。作业的内容和文档索引的生成方法,依赖于相关存储库连接。文档的索引生成方法,还依赖于输出连接。

+

所定义的多数作业会执行一次以上。每当执行作业,不仅将新文档及更新文档发送到输出连接,还要将对象外文档通知输出连接。文档可用两个方法排除对象之外:从存储库删除文档时,从读取对象排除文档时。这两种方法ManifoldCF均可处理

+

如删除作业,会通知输出连接和作业相关的所有文档已被删除。作业显示该作业的相关文档。作业被删除时,与其它作业不相关的文档也会被删除。(注:ManifoldCF作业并不仅仅是用来执行文档读取任务。)

+

ManifoldCF可从多个作业读取一个文档。和一个以上作业相关的文档以如下方式处理:

+
    +
  • 删除作业时,不含在别的作业对象中的文档信息将通知到输出连接。
  • +
  • 通知到输出连接的文档版本取决于最后执行的作业。
  • +
+

文档为多个作业的对象时处理变为复杂,所以应尽量避免。

+

非连续作业按如下步骤执行:

+
    +
  1. 将作业的新建,修改,删除的开始点登录到队列([播种])
  2. +
  3. 读取文档,发现新文档,获取删除对象信息
  4. +
  5. 从队列删除读取对象外文档
  6. +
+

还可让作业[连续]执行。连续作业将一直直行直到中断为止。连续作业按如下步骤执行:

+
    放弃设置内容时,选择[取消]按钮或左方菜单项。 +
  1. 将作业的新建,修改,删除的开始点登录的队列([播种])
  2. + +
  3. 读取文档,发现新文档,获取删除对象信息。定期登录种子
  4. +
+

注:连续作业无法从队列删除排除文档。只有从存储库删除的文档可以出队。 +

+

作业可由用户立即执行,还可调度。调度时,可指定开始时间,还可设置在别的作业结束后执行。

+

可并行执行的作业数并无限制。

+

定义作业时,选择左菜单的[作业列表]。会显示如下页面:

+

+
+

+

当显示,编辑,删除所定义的作业时,单击显示在作业列表中的作业右方的链接。还可以复制定义的作业。定义新作业时,选择列表下方所显示的[添加新作业]链接,会显示如下页面:

+

+
+

+

请输入作业名。作业名无需保持唯一性。但是,具有唯一性便于使用,故推荐保持唯一性。输入后选择[连接]标签:

+

+
+

+

选择输出连接名和存储库连接名。注意保存作业定义后就不能修改所选连接。

+

可以指定作业的优先级及开始方法。优先级,指和其它作业相比时读入文档的重要性。设置值高的作业优先读入文档。开始方法如上所述,手工开始,按调度时间开始,或在别的调度作业后开始。

+

设置完毕单击[下一个]按钮。会看到其它标签和页下的[保存]按钮。登录或更新作业时必须要单击[保存]按钮。放弃设置内容时,单击[取消]按钮或左方的菜单项。

+

所有作业有[调度]标签。从调度标签,可进行调度相关设置:

+

+
+

+

可进行以下设置:

+
    +
  • 连续执行作业,还是一次性读入所有文档
  • +
  • 文档变成无效的时间。无效文档的索引将被删除
  • +
  • 确认文档更新的间隔
  • +
  • 初期文档重新播种的等待时间
  • +
+
+

最后三个设置仅在连续执行时有效。

+

从此页还可定义调度期间。调度期间指,可执行作业的时间段。时间段由开始日期(星期,月,日,时,分)和最大执行时间(分)指定。从各下拉菜单选择多个设置时,作业开始时间为各下拉菜单中所选日期设置中的一个匹配时。

+

输入调度后,单击[添加调度]按钮:

+

+
+

+

示例页面定义为,作业将从星期六和星期日的上午2点到最长4个小时(上午6点)执行。

+

其它标签随所选连接类型不同而不同。关于这些标签的详情,参阅所选输出连接及存储库连接的章节。

+
+
+ 执行作业 +

要把握作业执行状态,从左菜单选择[状态与管理]。会显示如下页面:

+

+
+

+

要显示作业的当前状态单击画面下方的[更新]按钮。更改作业的状态,选择显示待更改作业名左方的状态链接。具有如下处理状态:

+
    +
  • 开始 (开始作业)
  • +
  • 中断(中断作业)
  • +
  • 结束 (暂时结束作业)
  • +
  • 重开 (重新开始作业)
  • +
  • 重新执行 (中断作业并重新执行)
  • +
+
+

[文档数],[处理中],[已处理]栏表示队列中的作业信息。[文档数]指作业对象的所有文档数。[处理中]指队列中待处理文档数。[已处理]指至少一次放进队列并处理过的文档数。

+
+
+ 状态报告 +

ManifoldCF的所有作业和文档集相关。包含在集和中的文档位置信息保存在作业队列中。ManifoldCF可从GUI页确认此队列。

+

从各状态报告可通过以下信息选择作业队列的文档:

+
    +
  • 作业
  • +
  • 文档ID
  • +
  • 文档状态
  • +
  • 文档的下次调度时间
  • +
+
+ 文档状态 +

文档状态报告,显示和指定条件相吻合的文档及其状态,预定处理列表。还可确认执行中的作业是否处理某一个文档。

+

从左菜单选择[文档状态]链接,会显示如下页面:

+

+
+

+

选择要搜索的连接。还可以指定用来过滤文档状态和文档ID的正则表达式。单击[下一个]按钮会显示如下页面:

+

+
+

+

从右方下拉列表,选择作业,再一次单击[下一个]按钮。会显示如下页面:

+

+
+

+

可以修改条件并单击[执行]按钮来更改要显示的文档信息。还可以通过修改显示结果数并单击[执行]按钮,更改每一页的显示文档数。一页中无法显示所有匹配文档时,单击[上一个]链接或[下一个]链接来移动并显示。

+
+
+ 队列状态 +

队列状态报告,显示指定类中出现的文档次数。指定类时,使用文档ID和匹配正则表达式的组。结果为文档数。文档状态/状況组成为一列。

+

比如,指定类为[()]时一行由状态/状況组构成。指定类为[(.*)],一行由每一个文档ID构成,相关文档的状态/状況列设为[1],其它列设为[0]。

+

从左菜单选择[队列状态]链接,显示如下页面:

+

+
+

+

选择要搜索的连接。还可指定用来过滤文档状态/状況和文档ID的正则表达式。文档ID类缺省为[(.*)]。请根据需要修改。单击[下一个]按钮会显示如下页面:

+

+
+

+

从右方下拉列表,选择作业,再一次[下一个]按钮を。会显示如下页面:

+

+
+

+

可以通过修改条件并单击[执行]按钮来更改显示的文档信息。还可以通过修改显示结果数并单击[执行]按钮,来修改每一页的显示文档数。所有匹配文档无法显示在同一页时,单击[上一个]链接和[下一个]链接来移动并显示。

+ +
+
+
+ 历史记录报告 +

ManifoldCF记录每一个连接所处理的历史记录。此历史记录包括ManifoldCF核心所记录的事件和,存储库连接及输出连接的事件。事件以[活动类型]加以分类。存在如下活动类型:

+
    +
  • 开始作业
  • +
  • 结束作业
  • +
  • 中断作业
  • +
  • 多个connection-type-specific读入及访问处理
  • +
  • 多个connection-type-specific输出及索引生成处理
  • +
+

历史记录报告可用来确认正在如何处理文档,是否在正常运行。ManifoldCF配有基于历史记录数据的多个报告。

+

所有历史记录报告,可以过滤显示内容。可使用如下项目指定过滤条件:

+
    +
  • 存储库连接名
  • +
  • 活动类型(可选择多个)
  • +
  • 开始时间
  • +
  • 结束时间
  • +
  • 对象文档ID(以正则表达式指定)
  • +
  • 结果(以正则表达式指定)
  • +
+

报告可用来查出处理中的問題或性能問題的原因。各历史记录报告的详情请参照下面章节。

+
+ 简易历史记录报告 +

简易报告并不进行统计,只显示和指定条件匹配的存储库连接的历史记录数据。从新到旧显示事件的开始时间,结束时间,处理内容,ID,数据量(字节),结果等。还可以改变要显示的报告事件数,按指定列顺次排序,移动页。

+

请从左菜单选择[简易历史记录]。将看到如下页面:

+

+
+

+

请从左上下拉菜单选择存储库连接。还可以指定以正则表达式开始和结束日期和时间,对象ID及结果代码。缺省设置下显示前一小时之内的所有事件。

+

单击[下一个]按钮。可从右上下拉菜单看到活动。

+

+
+

+

从下拉菜单选择一个或一个以上活动,单击[执行]按钮。相应事件会按由新到旧的顺序显示

+

+
+

+

如改变搜索条件时,修改条件后单击[执行]按钮。另外,改变显示结果数并单击[执行]按钮,改变1页中所显示的文档数。所有匹配文档无法显示在同一页时,还可以单击[上一个]链接和[下一个]链接来移动显示内容。

+

单击[执行]按钮,会按当前时间作为条件显示结果。即,显示单击[执行]按钮前一小时之内的事件。作业执行中时,每次单击会显示不同结果。

+
+
+ 最大活动报告 +

最大活动报告,用来显示在指定时间段活动的最大发生率。

+
+
+ 最大带宽报告 +

最大带宽报告,表示在指定时间段活动的最大字节传送率。

+
+
+ 结果历史记录报告 +

结果历史记录报告,显示指定活动相应的结果数量。

+
+
+ +
+ 关于认证 +

所选连接类型需要认证时,请从系统管理员获取需要的信息。各个连接设计时考虑到,读取文档时要求最低限度的认证。执行中发生安全警告时,请核实认证的权限。

+
+ +
+ +
+ 输出连接类型 + +
+ Solr输出连接 +

Solr输出连接类型,通过Solr HTTP API发送文档到Solr。连接预先设置为Solr的缺省值。Solr连接不管可否建立索引,处理所有文档。设置管道判断是否使用文档。

+

但是,因发送所有文档所以如不设置过滤器,象图片等大型文件也会被发送,给系统施加很大负荷。为避免发生此类问题,建议检查Solr连接的所有爬取结果,从而发现不足或错误的设置。

+

选择Solr输出连接,会显示5个标签。[服务器]标签指定HTTP对象:

+

+
+

+

输入Solr设置。当前版本只支持基本认证。在如下部分输入用户/密码。

+

从[模式]标签,可指定Solr字段作为文档ID。Solr连接将使用此字段作为主键来搜索文档。

+

+
+

+

从[参数]标签指定发到Solr的任意参数。可以使用可用在Solr更新请求的任意参数。 +比如,可以添加为处理Solr文档所使用的管道/链:update.chain=myChain。其它可指定的参数参阅Solr手册。标签显示如下:

+

+
+

+

输入参数名和值,单击[添加]按钮。名称已存在时,现有值被新值覆盖。删除参数时,单击在删除参数左方的[删除]按钮。

+

第4个标签为[文档]标签。这可根据文档大小和MIME类型来过进行滤器。按字节単位指定文档的最大长度,排除超过设置(比如10485760等于10MB)的文档。要只添加特定MIME类型的文档,可在"包含MIME类型"栏输入(比如要排除HTML以外的文档,登录"text/html")。"排除MIME类型"栏,用以排除特定MIME类型的文档(比如要排除JPEG图片就登录"image/jpeg")。标签显示如下:

+
+

+

第5个标签为"提交"标签。用来控制提交操作。所有作业在缺省状态下设置为结束时自动文档。另,还可以毫秒单位在指定时间内提交各文档(如在10秒之内提交则登录"10000")。commit within的动作取决于Solr而非ManifoldCF。标签显示如下:

+
+

+

输入完设置,单击[保存]按钮。显示如下输入设置列表:

+

+
+

+

示例页面,显示因Solr连接无法正常运行而出错。

+

在作业选择Solr类型连接,显示[项目映射]标签。从此标签可将在作业连接类型中获取的元数据字段和Solr接收字段对应上。元数据字段名称由存储库设置,有可能和Solr模式不相配。在此标签,还可以设置将指定的元数据字段排除在索引生成对象之外。标签如下:

+

+
+

+

添加新映射时,在[源]项输入元数据名,[目标]里输入Solr的输出字段名并单击[添加]按钮。关于不发送到Solr的字段,[目标]置为空。

+
+ +
+ 文件系统输出连接 +

文件系统输出连接,可以象Unix工具wget在本地文件系统保存文档。此连接类型保存的文档,不包含元数据或安全信息,仅由二进制文件构成。

+

文件系统输出连接类型的连接构成信息不含添加标签。但,有附加的作业标签,称作[输出路径]。标签如下。

+

+
+

+

输入文档要输出的路径,单击[保存]。

+
+ +
+ HDFS输出连接 +

HDFS输出连接,象Unix工具wget可在HDFS(Hadoop Distributed File System)保存文档。此连接类型的保存文档,不含元数据或安全信息,仅由二进制文件构成。

+

HDFS输出连接类型的连接构成信息包含叫做[服务器]标签的添加标签。此标签如下所示。

+

+
+

+

输入HDFS名称节点的URI及HDFS用户名。两者均需输入。

+

关于HDFS输出连接类型,拥有叫做[输出路径]的附加的作业标签。此标签如下。

+

+
+

+

输入文档要输出的路径,单击[保存]。

+
+ +
+ OpenSearchServer输出连接 +

OpenSearchServer输出连接,通过HTTP API将XML文档送到OpenSearchServer。此连接器设计为尽量方便使用。

+

选择OpenSearchServer输出连接类型后,按照OpenSearchServer设置输入[参数]标签项。各OpenSearchServer输出连接对应着一个索引。使用一个以上索引时,请为每一个索引生成输出连接。

+
+

参数:


+
    +
  • 服务器地址:OpenSearchServer实例的URL。缺省URL(http://localhost:8080)为当OpenSearchServer和ManifoldCF在同一台服务器运行时的地址。
  • +
  • 索引名:连接器在指定索引生成数据。
  • +
  • 用户名和API键:为连接到OpenSearchServer实例的用户认证信息。用户未生成时,置空。下面的图像显示OpenSearchServer中记载认证信息时的页面。
  • +
+
+

在作业选择OpenSearchServer输出连接,会显示[OpenSearchServer]标签。此标签可设置如下事宜:


+
    +
  • 对象文档的最大大小(字节)。缺省为16MB。
  • +
  • 对象MIME类型。个别存储库连接无法正常处理。
  • +
  • 对象文件扩展名。个别存储库连接无法正常处理。
  • +
+
+

所有活动可从历史记录报告确认。连接器支持三种活动:读取文档(生成索引),删除文档,优化索引。结束作业索引被优化。

+
+

关于OpenSearchServer的详情参阅OpenSearchServer用户手册。

+
+ +
+ ElasticSearch输出连接 +

ElasticSearch输出连接,通过HTTP API将XML文档送到ElasticSearch。设计此连接器时考虑到尽量方便使用。

+

选择ElasticSearch输出连接类型后,按照ElasticSearch设置输入[参数]标签项。各ElasticSearch输出连接对应着一个索引。使用一个以上索引时,请为每一个索引生成输出连接。

+
+

参数:


+
    +
  • 服务器地址:ElasticSearch实例的URL。缺省URL(http://localhost:8080)为当ElasticSearch和ManifoldCF运行在同一台服务器时的地址。
  • +
  • 索引名:连接器在指定索引生成数据。
  • +
  • 用户名和API键:为连接到ElasticSearch实例的用户认证信息。用户未生成时,置空。下面图像显示ElasticSearch中记载认证信息时的页面。
  • +
+

在作业选择ElasticSearch输出连接,会显示[ElasticSearch]标签。此标签中可设置如下事宜:


+
    +
  • 对象文档的最大大小(字节)。缺省为16MB。
  • +
  • 对象MIME类型。个别存储库连接无法正常处理。
  • +
  • 对象文件扩展名。个别存储库连接无法正常处理。
  • +
+
+

所有活动可从历史记录报告确认。连接器支持三种活动:读取文档(生成索引),删除文档,优化索引。结束作业索引被优化。

+
+

ElasticSearch的详情参阅ElasticSearch用户手册。

+
+ +
+ MetaCarta GTS输出连接 +

MetaCarta GTS输出连接类型通过HTTP API发送文档到MetaCarta GTS搜索引擎。

+

GTS只能处理HTML,XML,RTF,PDF,微软Office文档。不能从其它类型文档建立索引。受此限制,较大的对象外文档不会被获取。

+

在作业选择GTS类型输出连接,会显示两个标签:[搜集]和[文档和模版]。从这些标签设置GTS特定功能。

+
+ +
+ Null输出连接 +

null输出连接,主要为存储库连接类型的开发人员而配备。很少在实际运用中使用。

+

Null输出连接类型只为索引及删除请求输出日志。不进行任何其它处理。Null输出连接无固有标签。

+
+ +
+ +
+ 权限连接类型 + +
+ ActiveDirectory权限连接 +

ActiveDirectory权限连接,当利用MS Windows共享目录,MS SharePoint,IBM FileNet存储库设置文件权限时加以使用。使用ActiveDirectory权限连接类型时,需设置可以登录到Windows域名控制器参照其他用户ID和组关系的认证信息。虽有如下限制,使用通常的Windows安全体系结构时并无问题:

+
+
    +
  • 存在子备注时
  • +
  • 请求数/秒较大时
  • +
+
+

选择ActiveDirectory权限连接会显示[域名控制器]标签:

+

+
+

+

输入所需项。通常在[管理员用户名]无需输入域名,根据域名控制器的构造需按[用户名@域名]格式输入。

+

输入后单击[保存]按钮,会显示如下设置概要和状态页面:

+

+
+

+

示例页面显示因ActiveDirectory无法连接而出错。

+
+ +
+ LDAP权限连接 +

LDAP权限连接,当没有本地文档安全模型的状況下提供文档安全时而使用。比如,包括Samba共享,Wiki页或RSS馈送等。

+

LDAP权限作为访问令牌使用LDAP服务器提供的用户或组名。这些访问令牌可以在,提供按作业所输入的访问令牌的存储库连接,或Samba共享用的支持明示用户/组名的JCIFS连接类型等使用。

+

此连接类型需输入为登录到适当LDAP服务器所需信息。为搜索用户或组的记录还需指定搜索。此权限连接类型由一个特殊LDAP标签:

+

+
+

+

输入要求值。注意基于服务器的域包括要搜索的LDAP域名。如域名为people.myorg.com,基于服务器的域为dc=com,dc=myorg,dc=people等。

+

结束后单击保存按钮。会看到如下连接概要和状态:

+

+
+

+

注意,在此样本LDAP连接不做响应,显示出错信息而非"Connection working"。

+
+ +
+ OpenText LiveLink权限连接 +

LiveLink权限连接,用来指定从LiveLink存储库获取文档时的安全。

+

使用LiveLink服务器,需指定可获取用户ACL的用户认证信息。LiveLink单独管理用户。还可以通过定义映射规则或使用正则表达式把ActiveDirectory和LiveLink用户联系起来。

+

选择LiveLink权限连接会显示如下两个标签:[服务器]标签和[用户映射]标签。

+

选择[服务器]标签会显示如下页面:

+

+
+

+

请输入LiveLinke服务器,端口,认证信息。

+

选择[用户映射]标签显示如下页面:

+

+
+

+

从[用户映射]标签,可将用户名及域名(通常来自ActiveDirectory)信息和LiveLink联系上。映射用正则表达式定义。转换源和值用([(]和[)])括上。被括弧括上的部分称为[组]。替换字符串,由固定字符和替换组构成。比如,[$(1)]表示首个匹配组,[$(1l)]表示首个匹配小写字符。同样[$(1u)]表示大写字符的映射组。

+

比如,匹配条件^(.*)\@([A-Z|a-z|0-9|_|-]*)\.(.*)$和替换字符串$(2)\$(1l)将ActiveDirectory用户名MyUserName@subdomain.domain.com对应到LiveLink用户名subdomain\myusername。

+

输入相应信息后单击[保存]按钮,会显示如下概要及状态信息:

+

+
+

+

请确认内容を。示例页中因LiveLink服务器无法连接而显示出错信息。

+
+ +
+ EMC Documentum权限连接 +

Documentum权限连接,用来指定从Documentum存储库获取文档时的安全。

+

使用时,需指定可获取Documentum文档服务器信息和用户ACL信息的认证信息。 +还可以指定是否包含按用户列表自动生成的ACL。自动ACL针对每一个文件夹对象生成。存在很多文件夹时,随着大量的ACL返回用户的ManifoldCF访问令牌亦会增加,导致性能恶化。另外,在很多场合Documentum并不适用这些ACL。因此,在多数情况设置为忽略这些ACL也不成问题。

+

选择Documentum权限连接会显示如下三个标签:[Docbase],[用户映射],[系统ACL]。

+

选择Documentum权限连接,会显示如下[Docbase]标签:

+

+
+

+

请输入文档服务器docbase名和认证信息。当文档服务器中ActiveDirectory没有设为有效时,请将[域名]项置为空。

+

选择[用户映射]标签会显示如下页面:

+

+
+

+

在对应所输入用户名和文档服务器用户名时可指定是否区分大小写字符。其它对应未支持此功能。在很多场合,Documentum实例和ActiveDirectory连锁,Documentum用户名和ActiveDirectory的用户名一致,或ActiveDirectory用户名只使用小写字符。详细に付いては,Documentum系统管理员ガイドを参照请。

+

选择[系统ACL]标签会显示如下页面:

+

+
+

+

可指定忽略自动生成的ACL。建议现设置为忽略,根据需要改设为有效。请联系Documentum系统管理员询问正确设置。

+

输入后に[保存]按钮を单击如,如下概要及状态信息が会显示:

+

+
+

+

请确认状态,根据需要修改设置。

+
+ +
+ Memex Patriarch权限连接 +

Memem权限连接,用来指定从Memex存储库获取文档时的安全。

+

许指定所要连接的Memex服务器和用户的映射信息,为从Memex服务器获取用户权限信息所需的用户认证信息。

+

选择Memex权限连接,会显示两个标签:[Memex服务器],[用户映射]。选择[Memex服务器]标签会显示如下页面:

+

+
+

+

请输入Memex服务器,端口,获取Memex用户信息所需的用户认证信息。另,选择Memex服务器的字符编码。字符编码不明时,请咨询Memex系统管理员。

+

[用户映射]标签会显示如下页面:

+

+
+

+

从[用户映射]标签,可将用户名及域名(通常来自ActiveDirectory)信息对应到Memex。对应用正则表达式定义 +转换源和值用括弧([(]和[)])括上。由括弧括上的部分成为[组]。替换字符串由固定字符和替换组构成。比如,[$(1)]指首个匹配组,[$(1l)]指首个小写字符匹配组。同样[$(1u)]指大写字符匹配组。

+

比如,匹配条件^(.*)\@([A-Z|a-z|0-9|_|-]*)\.(.*)$和替换字符串$(2)\$(1l),将ActiveDirectory用户名MyUserName@subdomain.domain.com映射到Memex用户名subdomain\myusername

+

输入对应信息后单击[保存]按钮,会显示如下概要及状态信息

+

+
+

+

请确认内容。示例页中因Memex服务器无法连接而发生出错信息。

+
+ +
+ Autonomy Meridio权限连接 +

Meridio权限连接,用来指定从Meridio存储库获取文档所需的安全。

+

请指定所要连接文档服务器,记录服务器,用户服务的信息。亦需指定为获取用户ACL信息所需的Meridio用户认证信息。

+

用户服务为Meridio Authority的一部分。如使用Meridio Authority,请安装Meridio系统。 +不清楚时,请咨询Meridio服务器管理员。

+

选择Meridio权限连接会显示四个标签:[文档服务器],[记录服务器],[用户服务服务器],[认证]。选择[文档服务器]标签会显示如下页面:

+

+
+

+

请输入协议,服务器名,端口,Meridio文档服务器服务地址。使用代理服务器时,请输入代理服务器主机和端口号。认证代理服务器在当前版本不支持。

+

Meridio系统可为不同服务配备不同服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置还可指定不同服务器。

+

选择[记录服务器]标签,会显示如下页面:

+

+
+

+

输入协议,服务器名,端口号,Meridio记录服务器的服务地址。使用代理服务器时,输入代理服务器主机和端口号。认证代理服务器在当前版本不受支持。

+

Meridio系统の时不同的服务每一个服务器を配备可が,通常多个の服务が同じ服务器で运行しています。但是,连接类型设置从不同的服务器を指定する还可以。

+

[用户服务服务器]标签を选择会显示如下页面:

+

+
+

+

输入页面内容,需先安装Meridio Authorith extension。

+

输入协议,服务器名,端口号,Meridio用户服务服务器的服务地址。使用代理服务器时,输入代理服务器主机和端口号。当前版本不支持认证代理服务器。

+

Meridio系统可为不同服务配备不同的服务器,通常多个服务运行在同一个服务器。但是,从连接类型设置可指定不同服务器。

+

选择[认证]标签,会显示如下页面:

+

+
+

+

输入Meridio系统用户的认证信息。

+

输入完单击[保存]按钮。会显示如下页面:

+

+
+

[... 771 lines stripped ...]