Каким инструментом word-доки можно разложить на текстовое представление? кто/что юзал?

Небольшое обсуждение из гиттера

Artur Ayukhanov @artbear 16:58
Народ, каким инструментом word-доки можно разложить на текстовое представление?
кто/что юзал?

лет 15 назад я юзал консольные утилиты, которые получали тупо текст.

есть сейчас что-то получше, в формате markdown или еще каком, чтобы хотя бы какая-то часть форматирования сохранялась в текстовом представлении ?

Alexey Sosnoviy @asosnoviy 17:12
есть word2markdown онлайн
но работает он почти никак

Infactum @Infactum 17:12
еще смотря какие ворд-доки. Doc и docx это большая разница.

Alexey Sosnoviy @asosnoviy 17:12
word-html-markdown ?
http://word-to-markdown.herokuapp.com/
@artbear попробуй, расскажешь =)

Maximov Valery @theshadowco 17:14
https://word-to-markdown.herokuapp.com/
опередил ))

Maximov Valery @theshadowco 17:14
использовал как-то, в принципе работает

Infactum @Infactum 17:14
через LibreOffice сделано. Выводы, думаю, очевидны.
Старый doc формат даже разные версии ворда могут плохо переваривать… А с docx, очевидно, все норм должно быть

Artur Ayukhanov @artbear 17:18
А в автоматическом режиме? командная строка или rest-запрос какой-нибудь?

ага, оно на руби, и в ком.строке работает.

что еще есть?

Artur Ayukhanov @artbear 17:34
но работает он почти никак

в онлайне вроде конвертанул, в онлайне картинки показывает,
но

  • перенос через кнопку “Копировать в буфер” не работает, нужно вручную копировать
  • картинки в онлайне показываются в режиме rendered, но после копирования ни в VSC, ни в Гитлабе не показываются :worried:

Кто еще какие варианты знает?

Сам не делал, но поступил бы так:

  • doc/docx при помощи Open/Libre Office сконвертировал бы в HTML
  • Очистил бы HTML от служебных тегов (google “clean html”)
  • HTML скорвертировал бы в маркдаун

pandoc емнип умеет word 2 md

3 Симпатий

Можно попробовать сохранить как *.odt и конвертировать в markdown конвертором от GitBook https://github.com/GitbookIO/gitbook-convert
При конвертации из других форматов теряются картики.

2 Симпатий

Да, сохранение картинок - это боль!

A pure python-based utility to extract text from docx files. https://github.com/ankushshah89/python-docx2txt It can now also extract images.

https://github.com/tunguski/docx2md Java
https://github.com/ilenhanako/docx2md Ruby
https://github.com/matb33/docx2md PHP

Вот код для pandoc

pandoc --extract-media ./1-3_img ‘Раздел 1-3.docx’ -o 1-3.md

Разложит изображения из файла Раздел 1-3.docx в папку 1-3_img, а текст в 1-3.md

Вчера товарищ @EvilBeaver использовал возможность залезть внутрь docx и там массово отредактировать изображения.

Интересно.
@ebessonov @EvilBeaver А как обратно измененные картинки в docx запаковали?

почему-то после всех этих пертурбаций с word я начал подсматривать в сторону https://marketplace.visualstudio.com/items?itemName=James-Yu.latex-workshop

Рассказываю: wordx это на самом деле zip-архив, созданный по OPC (Open Packaging Convention).

Его можно переименовать в zip, открыть, перевести картинки в grayscale и упаковать обратно.

@ebessonov показал способ сохранения картинок из *.docx используя pandoc.

Я использую строку запуска pandoc -f docx -t gfm BDD.docx --output=BDD.md --atx-headers --wrap=none --toc --extract-media="." - картинки сохраняются в .media.

Для работы с *.docx использую LibreOffice - Word иногда косячит с форматом.
Есть плагин для Word - Writage. Он позволяет через копи-паст переносить *.md текст.