Получение заголовков из документа Word

Как получить список всех заголовков в текстовом документе с помощью VBA?

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
24
0
52 464
7
Перейти к ответу Данный вопрос помечен как решенный

Ответы 7

Ответ принят как подходящий

Вы имеете в виду такую ​​функцию createOutline (которая фактически копирует все заголовки из исходного текстового документа в новый текстовый документ):

(Я считаю, что функция astrHeadings = _docSource.GetCrossReferenceItems(wdRefTypeHeading) является ключевой в этой программе и должна позволить вам получить то, что вы просите)

Public Sub CreateOutline()
    Dim docOutline As Word.Document
    Dim docSource As Word.Document
    Dim rng As Word.Range

    Dim astrHeadings As Variant
    Dim strText As String
    Dim intLevel As Integer
    Dim intItem As Integer

    Set docSource = ActiveDocument
    Set docOutline = Documents.Add

    ' Content returns only the main body of the document, not the headers/footer.        
    Set rng = docOutline.Content
    ' GetCrossReferenceItems(wdRefTypeHeading) returns an array with references to all headings in the document
    astrHeadings = docSource.GetCrossReferenceItems(wdRefTypeHeading)

    For intItem = LBound(astrHeadings) To UBound(astrHeadings)
        ' Get the text and the level.
        strText = Trim$(astrHeadings(intItem))
        intLevel = GetLevel(CStr(astrHeadings(intItem)))

        ' Add the text to the document.
        rng.InsertAfter strText & vbNewLine

        ' Set the style of the selected range and
        ' then collapse the range for the next entry.
        rng.Style = "Heading " & intLevel
        rng.Collapse wdCollapseEnd
    Next intItem
End Sub

Private Function GetLevel(strItem As String) As Integer
    ' Return the heading level of a header from the
    ' array returned by Word.

    ' The number of leading spaces indicates the
    ' outline level (2 spaces per level: H1 has
    ' 0 spaces, H2 has 2 spaces, H3 has 4 spaces.

    Dim strTemp As String
    Dim strOriginal As String
    Dim intDiff As Integer

    ' Get rid of all trailing spaces.
    strOriginal = RTrim$(strItem)

    ' Trim leading spaces, and then compare with
    ' the original.
    strTemp = LTrim$(strOriginal)

    ' Subtract to find the number of
    ' leading spaces in the original string.
    intDiff = Len(strOriginal) - Len(strTemp)
    GetLevel = (intDiff / 2) + 1
End Function

ОБНОВЛЕНИЕ от @kol, 6 марта 2018 г.

Хотя astrHeadings является массивом (IsArray возвращает True, а TypeName возвращает String()), я получаю ошибку type mismatch, когда пытаюсь получить доступ к его элементам в VBScript (v5.8.16384 в Windows 10 Pro 1709 16299.248). Это, должно быть, проблема, связанная с VBScript, потому что я могу получить доступ к элементам, если запускаю тот же код в редакторе Word VBA. В итоге я перебирал строки оглавления, потому что он работает даже с VBScript:

For Each Paragraph In Doc.TablesOfContents(1).Range.Paragraphs
  WScript.Echo Paragraph.Range.Text
Next

Кроме замены int на long, чтобы увеличить скорость макроса.

Reinstate Monica - Goodbye SE 07.02.2012 19:14

Следуя совету @Wikis, я заменяю все int функции на long, но это дало мне ошибку 9 «индекс вне допустимого диапазона». Некоторые из int можно заменить, но не все. см. ответ, который я отправил, чтобы узнать, какой из них. (в Word Pro 2013)

MagTun 06.02.2015 13:40

Следите за усеченными заголовками (GetCrossReferenceItems) при таком подходе. windowssecrets.com/forums/showthread.php/…

Fuhrmanator 01.06.2017 19:16

Хотя astrHeadings является массивом (IsArray возвращает True, а TypeName возвращает String()), я получаю ошибку type mismatch, когда пытаюсь получить его элементы (VBScript 5.8.16384 в Windows 10 Pro 1709 16299.248).

kol 06.03.2018 14:54

@kol 9+ лет спустя это возможно. В то время я не тестировал это в Windows 10;)

VonC 06.03.2018 14:55

@kol Могут ли более свежие ответы, приведенные ниже, работать лучше? (stackoverflow.com/a/28363925/6309, stackoverflow.com/a/41630198/6309)

VonC 06.03.2018 14:57

@VonC Это должно быть проблема, связанная с VBScript, потому что я могу получить доступ к элементам astrHeadings, если я запустил тот же код в редакторе Word VBA.

kol 06.03.2018 14:58

@VonC Что касается более свежих ответов: у первого такая же проблема, а у второго только добавляется оглавление. Но это натолкнуло меня на мысль: после обновления оглавления я попытался перебрать его абзацы, и он работает даже с VBScript :)

kol 06.03.2018 15:23

@kol Отлично! Можете ли вы отредактировать этот ответ, чтобы проиллюстрировать свой подход?

VonC 06.03.2018 15:25

@VonC В любое время :)

kol 06.03.2018 15:36

Привет, можно ли получить заголовок, который начинается с ПРИЛОЖЕНИЯ?

Alvin567 14.09.2020 04:40

@ Alvin567 Двенадцать лет спустя, я не уверен. Это был бы хороший вопрос сам по себе.

VonC 14.09.2020 09:01

Самый простой способ получить список заголовков - просмотреть абзацы в документе, например:

 Sub ReadPara()

    Dim DocPara As Paragraph

    For Each DocPara In ActiveDocument.Paragraphs

     If Left(DocPara.Range.Style, Len("Heading")) = "Heading" Then

       Debug.Print DocPara.Range.Text

     End If

    Next


End Sub

Кстати, я считаю хорошей идеей удалить последний символ диапазона абзаца. В противном случае, если вы отправляете строку в окно сообщения или документ, Word отображает дополнительный управляющий символ. Например:

Left(DocPara.Range.Text, len(DocPara.Range.Text)-1)

Я предпочел это выбранному ответу - он дал мне лучшие результаты и большую гибкость.

Praesagus 21.01.2012 21:02

Я пробовал это, но это невыносимо медленно ... на обработку моего документа ушло около 15 минут (там много таблиц, поэтому там более 45000 абзацев)

FraggaMuffin 20.05.2015 01:13

Вы также можете создать оглавление в документе и скопировать его. Это отделяет ссылку на параграф от заголовка, что удобно, если вам нужно представить это в другом контексте. Если вам не нужен ToC в вашем документе, просто удалите его после копирования и вставки. JK.

Этот макрос прекрасно работал у меня (Word 2010). Я немного расширил функциональность: теперь он предлагает пользователю ввести минимальный уровень и подавляет подзаголовки ниже этого уровня.

Public Sub CreateOutline()
' from http://stackoverflow.com/questions/274814/getting-the-headings-from-a-word-document
    Dim docOutline As Word.Document
    Dim docSource As Word.Document
    Dim rng As Word.Range

    Dim astrHeadings As Variant
    Dim strText As String
    Dim intLevel As Integer
    Dim intItem As Integer
    Dim minLevel As Integer

    Set docSource = ActiveDocument
    Set docOutline = Documents.Add

    minLevel = 1  'levels above this value won't be copied.
    minLevel = CInt(InputBox("This macro will generate a new document that contains only the headers from the existing document. What is the lowest level heading you want?", "2"))

    ' Content returns only the
    ' main body of the document, not
    ' the headers and footer.
    Set rng = docOutline.Content
    astrHeadings = _
     docSource.GetCrossReferenceItems(wdRefTypeHeading)

    For intItem = LBound(astrHeadings) To UBound(astrHeadings)
        ' Get the text and the level.
        strText = Trim$(astrHeadings(intItem))
        intLevel = GetLevel(CStr(astrHeadings(intItem)))

        If intLevel <= minLevel Then

            ' Add the text to the document.
            rng.InsertAfter strText & vbNewLine

            ' Set the style of the selected range and
            ' then collapse the range for the next entry.
            rng.Style = "Heading " & intLevel
            rng.Collapse wdCollapseEnd
        End If
    Next intItem
End Sub

Private Function GetLevel(strItem As String) As Integer
    ' from http://stackoverflow.com/questions/274814/getting-the-headings-from-a-word-document
    ' Return the heading level of a header from the
    ' array returned by Word.

    ' The number of leading spaces indicates the
    ' outline level (2 spaces per level: H1 has
    ' 0 spaces, H2 has 2 spaces, H3 has 4 spaces.

    Dim strTemp As String
    Dim strOriginal As String
    Dim intDiff As Integer

    ' Get rid of all trailing spaces.
    strOriginal = RTrim$(strItem)

    ' Trim leading spaces, and then compare with
    ' the original.
    strTemp = LTrim$(strOriginal)

    ' Subtract to find the number of
    ' leading spaces in the original string.
    intDiff = Len(strOriginal) - Len(strTemp)
    GetLevel = (intDiff / 2) + 1
End Function

Самый быстрый метод извлечения всех заголовков (до LEVEL5).

Sub EXTRACT_HDNGS()
Dim WDApp As Word.Application    'WORD APP
Dim WDDoc As Word.Document       'WORD DOC

Set WDApp = Word.Application
Set WDDoc = WDApp.ActiveDocument

For Head_n = 1 To 5
Head = ("Heading " & Head_n)
WDApp.Selection.HomeKey wdStory, wdMove

    Do
       With WDApp.selection
      .MoveStart Unit:=wdLine, Count:=1    
      .Collapse Direction:=wdCollapseEnd
       End with
        With WDApp.Selection.Find
          .ClearFormatting:          .text = "":     
          .MatchWildcards = False:   .Forward = True
          .Style = WDDoc.Styles(Head)
         If .Execute = False Then GoTo Level_exit
            .ClearFormatting
        End With

       Heading_txt = RemoveSpecialChar(WDApp.Selection.Range.text, 1):              Debug.Print Heading_txt
       Heading_lvl = WDApp.Selection.Range.ListFormat.ListLevelNumber:              Debug.Print Heading_lvl
       Heading_lne = WDDoc.Range(0, WDApp.Selection.Range.End).Paragraphs.Count:    Debug.Print Heading_lne
       Heading_pge = WDApp.Selection.Information(wdActiveEndPageNumber):            Debug.Print Heading_pge

       If Wdapp.Selection.Style = "Heading 1" Then GoTo Level_exit
       Wdapp.Selection.Collapse Direction:=wdCollapseStart
   Loop
Level_exit:
Next Head_n

End Sub

Следуя комментарию Wikis к ответу VonC, вот код, который сработал для меня. Это ускоряет работу.

Public Sub CopyHeadingsInNewDoc()
    Dim docOutline As Word.Document
    Dim docSource As Word.Document
    Dim rng As Word.Range

    Dim astrHeadings As Variant
    Dim strText As String
    Dim longLevel As Integer
    Dim longItem As Integer

    Set docSource = ActiveDocument
    Set docOutline = Documents.Add

    ' Content returns only the
    ' main body of the document, not
    ' the headers and footer.
    Set rng = docOutline.Content
    astrHeadings = _
     docSource.GetCrossReferenceItems(wdRefTypeHeading)

    For intItem = LBound(astrHeadings) To UBound(astrHeadings)
        ' Get the text and the level.
        strText = Trim$(astrHeadings(intItem))
        intLevel = GetLevel(CStr(astrHeadings(intItem)))

        ' Add the text to the document.
        rng.InsertAfter strText & vbNewLine

        ' Set the style of the selected range and
        ' then collapse the range for the next entry.
        rng.Style = "Heading " & intLevel
        rng.Collapse wdCollapseEnd
    Next intItem
End Sub

Private Function GetLevel(strItem As String) As Integer
    ' Return the heading level of a header from the
    ' array returned by Word.

    ' The number of leading spaces indicates the
    ' outline level (2 spaces per level: H1 has
    ' 0 spaces, H2 has 2 spaces, H3 has 4 spaces.

    Dim strTemp As String
    Dim strOriginal As String
    Dim longDiff As Integer

    ' Get rid of all trailing spaces.
    strOriginal = RTrim$(strItem)

    ' Trim leading spaces, and then compare with
    ' the original.
    strTemp = LTrim$(strOriginal)

    ' Subtract to find the number of
    ' leading spaces in the original string.
    longDiff = Len(strOriginal) - Len(strTemp)
    GetLevel = (longDiff / 2) + 1
End Function

Интересный взгляд на мой ответ от 6 лет. +1

VonC 06.02.2015 13:42

Я мог бы отредактировать ваш ответ, но поскольку вы не редактировали следующий комментарий Wikis, я не был уверен, что это будет хорошей идеей! (Я все еще новичок в VBA)

MagTun 06.02.2015 13:46

@VonC Кстати, есть ли способ выбрать только заголовки 1 и 2 с помощью этой функции (вы можете отредактировать мой ответ, чтобы отразить изменение, если хотите ;-)!)

MagTun 06.02.2015 13:52

Зачем так много раз изобретать велосипед?!?

«Список всех заголовков» - это просто стандартный индекс документа Word!

Вот что я получил, записав макрос при добавлении индекса в документ:

Sub Macro1()
    ActiveDocument.TablesOfContents.Add Range:=Selection.Range, _
        RightAlignPageNumbers:=True, _
        UseHeadingStyles:=True, _
        UpperHeadingLevel:=1, _
        LowerHeadingLevel:=5, _
        IncludePageNumbers:=True, _
        AddedStyles: = "", _
        UseHyperlinks:=True, _
        HidePageNumbersInWeb:=True, _
        UseOutlineLevels:=True
End Sub

Другие вопросы по теме